大數據集成與預處理實訓

梁楠楠,張誌偉,徐旭 等

  • 出版商: 電子工業
  • 出版日期: 2026-01-01
  • 售價: $252
  • 語言: 簡體中文
  • 頁數: 164
  • ISBN: 7121518074
  • ISBN-13: 9787121518072
  • 相關分類: 大數據 Big-data
  • 下單後立即進貨 (約4週~6週)

相關主題

商品描述

大數據技術的落地應用高度依賴高效的數據集成能力。Sqoop、DataX、Flume、Flink CDC等工具作為連接關系型數據庫與分布式存儲系統的橋梁,是大數據開發工程師的核心技能棧。本書以場景化實訓為導向,系統介紹Sqoop、DataX、Flume、Flink CDC的原理與應用方法,幫助讀者掌握從數據采集、傳輸到存儲的全流程技術。通過“圖書銷售數據集成”“零售業務數據集成”等項目,演示單工具在離線同步、實時捕獲等場景中的應用;通過“銀行金融租賃審批數據集成”項目,串聯多工具實現離線全量數據與實時增量數據的混合處理。 本書適合作為高等學校大數據相關專業的實訓教材,也可為數據工程從業者提供實踐參考。

目錄大綱

第1篇 工具基礎篇
第1章 圖書銷售數據集成案例 1
1.1 原始業務數據準備 1
1.1.1 創建MySQL數據庫及表 2
1.1.2 執行SQL文件導入數據 2
1.2 MySQL數據同步至HDFS 3
1.2.1 Sqoop全量同步數據 3
1.2.2 Sqoop使用Where過濾參數 5
1.2.3 Sqoop使用SQL語句 7
1.3 MySQL數據同步至Hive 9
1.3.1 Sqoop全量同步數據至Hive表 9
1.3.2 Sqoop實現增量數據導入 10
1.3.3 Sqoop同步數據至Hive分區表 12
1.4 Hive數據導出至MySQL 14
1.5 編寫Sqoop腳本實現數據同步 15
1.5.1 Sqoop腳本:MySQL導入數據至Hive 15
1.5.2 Sqoop腳本:Hive導出數據至MySQL 18
第2章 零售業務數據集成方案 20
2.1 業務數據準備 20
2.1.1 創建MySQL數據庫及表 21
2.1.2 加載業務數據 22
2.2 實現MySQL到HDFS的數據抽取 23
2.2.1 編寫全量同步JSON腳本 23
2.2.2 執行腳本並校驗數據 28
2.2.3 使用MySQLReader QuerySQLMode抽取數據 31
2.2.4 通過DataX傳參實現數據抽取 35
2.3 實現MySQL到Hive的數據抽取 38
2.3.1 編寫全量同步至Hive的JSON腳本 38
2.3.2 實現全量數據同步至Hive分區表 42
2.3.3 實現增量數據同步至Hive分區表 46
2.4 DataX實現Hive到RDBMS的數據導出 48
2.4.1 編寫全量導出至MySQL的JSON腳本 48
2.4.2 執行腳本並校驗數據 49
第3章 用戶行為日誌數據集成平臺 51
3.1 數據準備 51
3.2 Flume實戰 53
3.2.1 Exec Source 53
3.2.2 Spooldir Source 58
3.2.3 Taildir Source 62
3.2.4 Kafka Sink 66
第4章 Flink CDC的實時數據集成 72
4.1 模擬數據 72
4.1.1 創建MySQL數據庫及表 73
4.1.2 編寫Python代碼模擬數據 76
4.2 數據集成實現 82
4.2.1 框架介紹 82
4.2.2 同步數據至HBase 83
4.2.3 同步數據至Kafka 92
第2篇 綜合實訓篇
第5章 銀行金融租賃審批數據集成 97
5.1 技術框架介紹 97
5.2 項目背景與目標 98
5.3 技術架構設計 99
5.4 數據資源概述 101
5.5 數據獲取 102
5.5.1 創建數據庫及表 102
5.5.2 數據采集配置 103
附錄A Hadoop部署與配置 126
附錄B MySQL部署與配置 136
附錄C Hive部署與配置 138
附錄D ZooKeeper部署與配置 142
附錄E Kafka部署與配置 146
附錄F Hbase配置 150
附錄G Sqoop部署與配置 153
附錄H DataX部署與配置 155
附錄I Flume部署與配置 156

最後瀏覽商品 (17)