Data Pipelines with Apache Airflow (Paperback)

Harenslak, Bas P., de Ruiter, Julian Rutger

  • 出版商: Manning
  • 出版日期: 2021-04-27
  • 定價: $1,900
  • 售價: 9.0$1,710
  • 語言: 英文
  • 頁數: 325
  • 裝訂: Quality Paper - also called trade paper
  • ISBN: 1617296902
  • ISBN-13: 9781617296901
  • 相關分類: DevOps
  • 相關翻譯: Apache Airflow 數據編排實戰 (簡中版)
  • 立即出貨 (庫存=1)

買這商品的人也買了...

相關主題

商品描述

Data Pipelines with Apache Airflow teaches you how to build and maintain effective data pipelines.

Summary
A successful pipeline moves data efficiently, minimizing pauses and blockages between tasks, keeping every process along the way operational. Apache Airflow provides a single customizable environment for building and managing data pipelines, eliminating the need for a hodgepodge collection of tools, snowflake code, and homegrown processes. Using real-world scenarios and examples, Data Pipelines with Apache Airflow teaches you how to simplify and automate data pipelines, reduce operational overhead, and smoothly integrate all the technologies in your stack.

Purchase of the print book includes a free eBook in PDF, Kindle, and ePub formats from Manning Publications.

About the technology
Data pipelines manage the flow of data from initial collection through consolidation, cleaning, analysis, visualization, and more. Apache Airflow provides a single platform you can use to design, implement, monitor, and maintain your pipelines. Its easy-to-use UI, plug-and-play options, and flexible Python scripting make Airflow perfect for any data management task.

About the book
Data Pipelines with Apache Airflow teaches you how to build and maintain effective data pipelines. You'll explore the most common usage patterns, including aggregating multiple data sources, connecting to and from data lakes, and cloud deployment. Part reference and part tutorial, this practical guide covers every aspect of the directed acyclic graphs (DAGs) that power Airflow, and how to customize them for your pipeline's needs.

What's inside
Build, test, and deploy Airflow pipelines as DAGs
Automate moving and transforming data
Analyze historical datasets using backfilling
Develop custom components
Set up Airflow in production environments

About the reader
For DevOps, data engineers, machine learning engineers, and sysadmins with intermediate Python skills.

About the author
Bas Harenslak and Julian de Ruiter are data engineers with extensive experience using Airflow to develop pipelines for major companies. Bas is also an Airflow committer.

Table of Contents

PART 1 - GETTING STARTED

1 Meet Apache Airflow
2 Anatomy of an Airflow DAG
3 Scheduling in Airflow
4 Templating tasks using the Airflow context
5 Defining dependencies between tasks

PART 2 - BEYOND THE BASICS

6 Triggering workflows
7 Communicating with external systems
8 Building custom components
9 Testing
10 Running tasks in containers

PART 3 - AIRFLOW IN PRACTICE

11 Best practices
12 Operating Airflow in production
13 Securing Airflow
14 Project: Finding the fastest way to get around NYC

PART 4 - IN THE CLOUDS

15 Airflow in the clouds
16 Airflow on AWS
17 Airflow on Azure
18 Airflow in GCP

商品描述(中文翻譯)

《使用 Apache Airflow 架設資料管道》教導您如何建立和維護有效的資料管道。成功的管道能夠高效地移動資料,減少任務之間的暫停和阻塞,確保整個過程的運作。Apache Airflow 提供了一個可自訂的環境,用於建立和管理資料管道,消除了使用各種工具、零散程式碼和自製流程的需求。《使用 Apache Airflow 架設資料管道》通過實際場景和示例,教導您如何簡化和自動化資料管道,減少運營開銷,並順利整合堆疊中的所有技術。購買印刷版書籍還包括 Manning Publications 提供的 PDF、Kindle 和 ePub 格式的免費電子書。

關於技術方面,資料管道管理從初始收集到整合、清理、分析、可視化等過程中的資料流動。Apache Airflow 提供了一個平台,您可以使用它來設計、實施、監控和維護資料管道。它易於使用的用戶界面、即插即用的選項和靈活的 Python 腳本使 Airflow 成為任何資料管理任務的理想選擇。

關於本書,《使用 Apache Airflow 架設資料管道》教導您如何建立和維護有效的資料管道。您將探索最常見的使用模式,包括聚合多個資料來源、連接到和從資料湖中提取資料以及雲端部署。作為參考和教程的一部分,這本實用指南涵蓋了驅動 Airflow 的有向無環圖(DAG)的每個方面,以及如何根據您的管道需求自定義它們。

內容包括:
- 以 DAG 的形式建立、測試和部署 Airflow 管道
- 自動化資料移動和轉換
- 使用回填分析歷史資料集
- 開發自定義元件
- 在生產環境中設置 Airflow

本書適合具備中級 Python 技能的 DevOps、資料工程師、機器學習工程師和系統管理員閱讀。

關於作者,Bas Harenslak 和 Julian de Ruiter 是具有豐富經驗的資料工程師,使用 Airflow 為大型公司開發管道。Bas 也是 Airflow 的貢獻者。

目錄:
第一部分 - 入門
1. 認識 Apache Airflow
2. Airflow DAG 的結構
3. Airflow 中的排程
4. 使用 Airflow 上下文為任務設置模板
5. 定義任務之間的依賴關係

第二部分 - 進階知識
6. 觸發工作流程
7. 與外部系統通訊
8. 構建自定義元件
9. 測試
10. 在容器中運行任務

第三部分 - Airflow 實踐
11. 最佳實踐
12. 在生產環境中操作 Airflow
13. 保護 Airflow
14. 專案:尋找在紐約市最快的交通方式

第四部分 - 雲端應用
15. Airflow 在雲端中的應用
16. Airflow 在 AWS 上的應用
17. Airflow 在 Azure 上的應用
18. Airflow 在 GCP 上的應用

作者簡介

Bas Harenslak and Julian de Ruiter are data engineers with extensive experience using Airflow to develop pipelines for major companies including Heineken, Unilever, and Booking.com. Bas is a committer, and both Bas and Julian are active contributors to Apache Airflow.

作者簡介(中文翻譯)

Bas Harenslak和Julian de Ruiter是資料工程師,擁有豐富的使用Airflow開發管線的經驗,曾為包括Heineken、Unilever和Booking.com在內的大型公司工作。Bas是一位貢獻者,而Bas和Julian都是Apache Airflow的活躍貢獻者。