Hadoop大數據開發基礎與案例實戰(微課版)

薛明誌 簡艷英 唐佐俠

  • 出版商: 人民郵電
  • 出版日期: 2025-12-01
  • 售價: $359
  • 語言: 簡體中文
  • 頁數: 236
  • ISBN: 7115655774
  • ISBN-13: 9787115655776
  • 相關分類: Hadoop
  • 下單後立即進貨 (約4週~6週)

  • Hadoop大數據開發基礎與案例實戰(微課版)-preview-1
Hadoop大數據開發基礎與案例實戰(微課版)-preview-1

相關主題

商品描述

本書較為全面地介紹了Hadoop的應用與開發。全書共11個項目,主要介紹了大數據的基本概念及應用領域、Hadoop的產生及其生態系統、搭建Hadoop集群、HDFS、MapReduce分布式計算、ZooKeeper、Hive數據倉庫、HBase實戰、Flume實戰、Kafka實戰等,還提供了1個綜合案例分析,通過練習和操作實踐,幫助讀者鞏固所學內容。 本書可以作為高等院校大數據技術專業“Hadoop大數據開發”課程的教材,也可以作為Hadoop大數據開發培訓的教材,也適合大數據開發人員、大數據平臺運維人員和廣大大數據技術愛好者自學使用。

作者簡介

薛明誌,博士,教授,商丘職業技術學院黨委書記、院長。河南省“三五人才工程”第三層次科研人員,度河南省教育廳學術技術帶頭人,曾獲商丘市首屆青年科技創新傑出獎,河南省高校優秀青年骨幹教師。

目錄大綱

目錄

走進大數據世界 1

項目導讀 1

項目目標 1

課前學習 1

任務一 認識大數據 2

一、大數據產生的時代背景 2

二、大數據概念 3

三、大數據特點 4

四、大數據的應用領域 5

五、大數據的發展歷程和發展趨勢 7

任務二 認識大數據計算模式 9

一、批處理計算 9

二、流計算 10

三、圖計算 10

四、查詢分析計算 10

任務三 認識大數據處理流程 11

一、大數據采集 11

二、大數據預處理 11

三、大數據存儲 12

四、大數據分析處理 12

五、大數據可視化 12

任務四 認識大數據信息安全 13

項目小結 14

項目考核 15

走進Hadoop世界 16

項目導讀 16

項目目標 16

課前學習 16

任務一 認識Hadoop 17

一、Hadoop簡介 17

二、Hadoop的產生與發展 17

三、Hadoop的特性 18

四、Hadoop版本變遷 18

五、Hadoop應用現狀 20

任務二 認識Hadoop生態系統 21

任務三 認識Spark 23

項目小結 25

項目考核 25

搭建Hadoop集群 26

項目導讀 26

項目目標 26

課前學習 26

任務一 安裝CentOS 7 27

一、創建虛擬機 27

二、安裝CentOS 7 29

三、克隆虛擬機 35

任務二 配置虛擬機集群環境 37

一、設置靜態IP地址 37

二、修改主機名 40

三、綁定主機名和IP地址 41

四、配置SSH免密登錄 43

任務三 搭建Hadoop分布式集群 44

一、安裝JDK 44

二、安裝與配置Hadoop 47

三、啟動Hadoop分布式集群 51

項目實訓 55

項目小結 55

項目考核 55

HDFS 57

項目導讀 57

項目目標 57

課前學習 57

任務一 認識分布式文件系統 58

任務二 認識HDFS 58

一、HDFS簡介 59

二、HDFS的特點 59

三、塊 60

四、名稱節點和數據節點 61

五、第二名稱節點 62

任務三 認識HDFS運行機制 64

一、副本機制 64

二、高可用集群機制 64

三、心跳機制 66

四、數據回收機制 66

五、集群安全模式 66

任務四 HDFS工作流程 67

一、啟動流程 67

二、讀數據流程 68

三、寫數據流程 68

任務五 HDFS基本操作 69

一、HDFS命令行操作 69

二、HDFS API操作 71

項目實訓 74

項目小結 75

項目考核 75

MapReduce分布式

計算 76

項目導讀 76

項目目標 76

課前學習 76

任務一 MapReduce概述 77

一、分布式並行計算 77

二、MapReduce簡介 78

三、MapReduce的特點 79

任務二 MapReduce框架原理 80

一、MapReduce工作流程 80

二、數據分片 82

三、Map階段 83

四、Shuffle階段 83

五、Reduce階段 84

任務三 Hadoop序列化 84

任務四 單詞統計分析 86

一、MapReduce編程規範 86

二、設計思路 86

三、設計過程 87

四、代碼實現 88

任務五 YARN資源調度管理框架 92

一、YARN基本架構 92

二、YARN的配置 93

三、將MapReduce程序提交給

YARN運行 95

任務六 案例分析 99

一、數據清洗案例 99

二、使用MapReduce求TOPN 103

三、MapReduce開發總結 108

任務七 MapReduce性能調優 109

一、MapReduce性能 109

二、MapReduce優化方法 110

三、常用的調優參數 111

項目實訓 113

項目小結 113

項目考核 114

ZooKeeper 115

項目導讀 115

項目目標 115

課前學習 115

任務一 ZooKeeper概述 116

一、ZooKeeper簡介 116

二、ZooKeeper工作機制 116

任務二 ZooKeeper的安裝與配置 117

任務三 搭建高可用集群 120

項目實訓 126

項目小結 126

項目考核 126

Hive數據倉庫 127

項目導讀 127

項目目標 127

課前學習 127

任務一 Hive概述 128

一、Hive應用場景 128

二、數據倉庫 128

三、Hive簡介 129

任務二 Hive的安裝與配置 131

一、MySQL的安裝 131

二、安裝與配置Hive 133

三、驗證Hive 136

任務三 表操作 138

一、創建數據庫 138

二、查詢數據庫 138

三、刪除數據庫 139

四、Hive表 139

五、數據導入 144

六、數據導出 145

七、修改表 147

八、刪除表 147

九、查詢 147

任務四 Hive數據類型 152

一、基本數據類型 152

二、復合數據類型 152

任務五 Hive函數 154

一、內置函數 154

二、窗口函數 155

任務六 數據遷移工具Sqoop 156

一、Sqoop簡介 156

二、安裝Sqoop 157

三、導入導出數據 157

任務七 案例分析 160

一、漢字統計分析 160

二、統計日誌數據 161

項目實訓 164

項目小結 164

項目考核 164

HBase實戰 166

項目導讀 166

項目目標 166

課前學習 166

任務一 HBase概述 167

一、非關系型數據庫簡介 167

二、HBase簡介 168

三、HBase實現原理 169

四、HBase的數據模型 171

任務二 HBase的安裝與配置 173

任務三 HBase Shell命令操作 176

任務四 HBase Java API操作 178

項目實訓 181

項目小結 182

項目考核 182

Flume實戰 184

項目導讀 184

項目目標 184

課前學習 184

任務一 Flume概述 185

一、Flume簡介 185

二、Flume工作機制 186

任務二 Flume的安裝與配置 188

任務三 采集日誌數據到HDFS 188

任務四 采集文件數據到HDFS 191

任務五 采集端口數據到HDFS 192

項目實訓 194

項目小結 194

項目考核 194

Kafka實戰 195

項目導讀 195

項目目標 195

課前學習 195

任務一 Kafka概述 196

一、消息隊列 196

二、Kafka簡介 197

三、Kafka工作機制 199

任務二 Kafka的安裝 201

一、安裝Scala 201

二、Kafka的安裝步驟 202

任務三 組件驗證部署 203

任務四 Kafka API 205

一、消息發送流程 205

二、異步發送API 206

三、Consumer API 208

任務五 案例分析 211

項目實訓 213

項目小結 213

項目考核 214

綜合案例分析 215

項目導讀 215

項目目標 215

課前學習 215

任務一 案例簡介 216

任務二 數據采集 216

任務三 數據預處理 217

任務四 離線計算 227

任務五 數據分析 233