Databricks mở mã nguồn framework ETL khai báo, giúp xây dựng pipeline nhanh hơn 90% | VentureBeat

Hãy tham gia sự kiện được tin tưởng bởi các nhà lãnh đạo doanh nghiệp trong gần hai thập kỷ. VB Transform tập hợp những người xây dựng chiến lược AI doanh nghiệp thực tế. Tìm hiểu thêm Hôm nay, tại Hội nghị thượng đỉnh Dữ liệu + AI hàng năm, Databricks đã công bố việc mở mã nguồn framework ETL khai báo cốt lõi của mình dưới dạng Apache Spark Declarative Pipelines, cung cấp nó cho toàn bộ cộng đồng Apache Spark trong một bản phát hành sắp tới. Databricks đã ra mắt framework này với tên gọi Delta Live Tables (DLT) vào năm 2022 và kể từ đó đã mở rộng nó để giúp các nhóm xây dựng và vận hành các pipeline dữ liệu đáng tin cậy, có khả năng mở rộng từ đầu đến cuối. Động thái mở mã nguồn này củng cố cam kết của công ty đối với các hệ sinh thái mở đồng thời đánh dấu một nỗ lực để vượt qua đối thủ Snowflake, công ty gần đây đã ra mắt dịch vụ Openflow của riêng mình để tích hợp dữ liệu — một thành phần quan trọng của kỹ thuật dữ liệu. Ưu đãi của Snowflake khai thác Apache NiFi để tập trung bất kỳ dữ liệu nào từ bất kỳ nguồn nào vào nền tảng của mình, trong khi Databricks đang cung cấp công nghệ kỹ thuật pipeline nội bộ của mình ở dạng mở, cho phép người dùng chạy nó ở bất kỳ đâu Apache Spark được hỗ trợ — và không chỉ trên nền tảng của riêng mình. Khai báo pipeline, để Spark xử lý phần còn lại Theo truyền thống, kỹ thuật dữ liệu có liên quan đến ba điểm khó khăn chính: soạn thảo pipeline phức tạp, chi phí hoạt động thủ công và nhu cầu duy trì các hệ thống riêng biệt cho khối lượng công việc hàng loạt và phát trực tuyến. Với Spark Declarative Pipelines, các kỹ sư mô tả những gì pipeline của họ nên làm bằng SQL hoặc Python và Apache Spark xử lý việc thực thi. Framework này tự động theo dõi các phụ thuộc giữa các bảng, quản lý việc tạo và phát triển bảng, đồng thời xử lý các tác vụ vận hành như thực thi song song, điểm kiểm tra và thử lại trong sản xuất. “Bạn khai báo một loạt các tập dữ liệu và luồng dữ liệu, và Apache Spark sẽ tìm ra kế hoạch thực thi phù hợp,” Michael Armbrust, kỹ sư phần mềm xuất sắc tại Databricks, cho biết trong một cuộc phỏng vấn với VentureBeat. Framework này hỗ trợ dữ liệu hàng loạt, phát trực tuyến và bán cấu trúc, bao gồm các tệp từ các hệ thống lưu trữ đối tượng như Amazon S3, ADLS hoặc GCS, ngay lập tức. Các kỹ sư chỉ cần xác định cả xử lý thời gian thực và định kỳ thông qua một API duy nhất, với các định nghĩa pipeline được xác thực trước khi thực thi để phát hiện các vấn đề sớm — không cần duy trì các hệ thống riêng biệt. “Nó được thiết kế cho thực tế của dữ liệu hiện đại như nguồn cấp dữ liệu thay đổi dữ liệu, bus tin nhắn và phân tích thời gian thực cung cấp năng lượng cho các hệ thống AI. Nếu Apache Spark có thể xử lý nó (dữ liệu), thì các pipeline này có thể xử lý nó,” Armbrust giải thích. Ông nói thêm rằng cách tiếp cận khai báo đánh dấu nỗ lực mới nhất của Databricks để đơn giản hóa Apache Spark. “Đầu tiên, chúng tôi đã làm cho điện toán phân tán trở nên hữu ích với RDD (Resilient Distributed Datasets). Sau đó, chúng tôi đã thực hiện thực thi truy vấn khai báo với Spark SQL. Chúng tôi đã mang mô hình tương tự đó đến phát trực tuyến với Structured Streaming và biến bộ nhớ đám mây thành giao dịch với Delta Lake. Bây giờ, chúng tôi đang thực hiện bước nhảy vọt tiếp theo là làm cho các pipeline đầu cuối trở nên khai báo,” ông nói. Đã được chứng minh ở quy mô lớn Mặc dù framework pipeline khai báo được thiết lập để được cam kết với codebase Spark, nhưng sức mạnh của nó đã được biết đến với hàng nghìn doanh nghiệp đã sử dụng nó như một phần của giải pháp Lakeflow của Databricks để xử lý khối lượng công việc từ báo cáo hàng loạt hàng ngày đến các ứng dụng phát trực tuyến dưới giây. Các lợi ích khá giống nhau trên toàn hội đồng: bạn lãng phí ít thời gian hơn cho việc phát triển pipeline hoặc các tác vụ bảo trì và đạt được hiệu suất, độ trễ hoặc chi phí tốt hơn nhiều, tùy thuộc vào những gì bạn muốn tối ưu hóa. Công ty dịch vụ tài chính Block đã sử dụng framework này để cắt giảm thời gian phát triển hơn 90%, trong khi Navy Federal Credit Union đã giảm thời gian bảo trì pipeline 99%. Công cụ Spark Structured Streaming, trên đó các pipeline khai báo được xây dựng, cho phép các nhóm điều chỉnh các pipeline cho độ trễ cụ thể của họ, xuống đến phát trực tuyến thời gian thực. “Với tư cách là một người quản lý kỹ thuật, tôi thích thực tế là các kỹ sư của tôi có thể tập trung vào những gì quan trọng nhất đối với doanh nghiệp,” Jian Zhou, quản lý kỹ thuật cấp cao tại Navy Federal Credit Union, cho biết. “Thật thú vị khi thấy mức độ đổi mới này hiện đang được mở mã nguồn, giúp nó có thể truy cập được vào nhiều nhóm hơn nữa.” Brad Turnbaugh, kỹ sư dữ liệu cấp cao tại 84.51°, lưu ý rằng framework này đã “giúp dễ dàng hỗ trợ cả hàng loạt và phát trực tuyến mà không cần kết hợp các hệ thống riêng biệt” đồng thời giảm lượng mã mà nhóm của ông cần quản lý. Cách tiếp cận khác với Snowflake Snowflake, một trong những đối thủ lớn nhất của Databricks, cũng đã thực hiện các bước tại hội nghị gần đây của mình để giải quyết các thách thức về dữ liệu, ra mắt một dịch vụ thu thập dữ liệu có tên Openflow. Tuy nhiên, cách tiếp cận của họ hơi khác so với cách tiếp cận của Databricks về phạm vi. Openflow, được xây dựng trên Apache NiFi, tập trung chủ yếu vào tích hợp và di chuyển dữ liệu vào nền tảng của Snowflake. Người dùng vẫn cần làm sạch, chuyển đổi và tổng hợp dữ liệu sau khi nó đến Snowflake. Mặt khác, Spark Declarative Pipelines, vượt xa bằng cách đi từ nguồn đến dữ liệu có thể sử dụng được. “Spark Declarative Pipelines được xây dựng để trao quyền cho người dùng khởi động các pipeline dữ liệu đầu cuối — tập trung vào việc đơn giản hóa việc chuyển đổi dữ liệu và các hoạt động pipeline phức tạp làm nền tảng cho các chuyển đổi đó,” Armbrust nói. Bản chất mã nguồn mở của Spark Declarative Pipelines cũng phân biệt nó với các giải pháp độc quyền. Người dùng không cần phải là khách hàng của Databricks để tận dụng công nghệ này, phù hợp với lịch sử đóng góp các dự án lớn như Delta Lake, MLflow và Unity Catalog cho cộng đồng mã nguồn mở của công ty. Dòng thời gian có sẵn Apache Spark Declarative Pipelines sẽ được cam kết với codebase Apache Spark trong một bản phát hành sắp tới. Tuy nhiên, dòng thời gian chính xác vẫn chưa rõ ràng. “Chúng tôi đã rất hào hứng về triển vọng mở mã nguồn framework pipeline khai báo của mình kể từ khi chúng tôi ra mắt nó,” Armbrust nói. “Trong hơn 3 năm qua, chúng tôi đã học được rất nhiều về các mẫu hoạt động tốt nhất và sửa chữa những mẫu cần tinh chỉnh. Bây giờ nó đã được chứng minh và sẵn sàng phát triển mạnh trong thế giới mở.” Việc triển khai mã nguồn mở cũng trùng với tính khả dụng chung của Databricks Lakeflow Declarative Pipelines, phiên bản thương mại của công nghệ này bao gồm các tính năng và hỗ trợ doanh nghiệp bổ sung. Hội nghị thượng đỉnh Dữ liệu + AI của Databricks diễn ra từ ngày 9 đến ngày 12 tháng 6 năm 2025 Thông tin chi tiết hàng ngày về các trường hợp sử dụng kinh doanh với VB Daily Nếu bạn muốn gây ấn tượng với sếp của mình, VB Daily sẽ giúp bạn. Chúng tôi cung cấp cho bạn thông tin nội bộ về những gì các công ty đang làm với AI tạo sinh, từ những thay đổi về quy định đến triển khai thực tế, để bạn có thể chia sẻ thông tin chi tiết để có ROI tối đa. Đăng ký ngay Đọc Chính sách bảo mật của chúng tôi Cảm ơn bạn đã đăng ký. Xem thêm bản tin VB tại đây. Đã xảy ra lỗi.

Comments

Leave a Reply

Your email address will not be published. Required fields are marked *