數據管道通過整合、清理、分析、可視化等方式來管理初始收集的數據流。Apache Airflow提供了一個統一的平台,可以使用它設計、實施、監控和維護數據的流動。Airflow具有易於使用的UI、即插即用的選項以及靈活的Python腳本,這些都使Airflow能夠非常輕鬆地完成任何數據管理任務。在《Apache Airflow數據編排實戰》中,介紹了如何構建和維護有效的數據管道。與你一同探索最常見的使用模式,包括聚合多個數據源、連接到數據湖以及雲端部署。可以將本書作為Airflow的實用指南,本書涵蓋了為Airflow提供動力的有向無環圖(DAG)的各方面知識,以及如何根據工作需求對其進行自定義的技術。
主要內容:構建、測試及部署Airflow管道作為DAG;自動對數據進行移動和轉換;使用回填技術分析歷史數據集;開發自定義組件;在生產環境中搭建Airflow。
Bas Harenslak和Julian de Ruiter是數據工程師,他們在為大公司開發數據管道方面擁有豐富的經驗。同時,Bas也是一位Airflow的提交者。