Hadoop大數據開發基礎與案例實戰(微課版)
薛明誌 簡艷英 唐佐俠
相關主題
商品描述
本書較為全面地介紹了Hadoop的應用與開發。全書共11個項目,主要介紹了大數據的基本概念及應用領域、Hadoop的產生及其生態系統、搭建Hadoop集群、HDFS、MapReduce分布式計算、ZooKeeper、Hive數據倉庫、HBase實戰、Flume實戰、Kafka實戰等,還提供了1個綜合案例分析,通過練習和操作實踐,幫助讀者鞏固所學內容。 本書可以作為高等院校大數據技術專業“Hadoop大數據開發”課程的教材,也可以作為Hadoop大數據開發培訓的教材,也適合大數據開發人員、大數據平臺運維人員和廣大大數據技術愛好者自學使用。
作者簡介
薛明誌,博士,教授,商丘職業技術學院黨委書記、院長。河南省“三五人才工程”第三層次科研人員,度河南省教育廳學術技術帶頭人,曾獲商丘市首屆青年科技創新傑出獎,河南省高校優秀青年骨幹教師。
目錄大綱
目錄
走進大數據世界 1
項目導讀 1
項目目標 1
課前學習 1
任務一 認識大數據 2
一、大數據產生的時代背景 2
二、大數據概念 3
三、大數據特點 4
四、大數據的應用領域 5
五、大數據的發展歷程和發展趨勢 7
任務二 認識大數據計算模式 9
一、批處理計算 9
二、流計算 10
三、圖計算 10
四、查詢分析計算 10
任務三 認識大數據處理流程 11
一、大數據采集 11
二、大數據預處理 11
三、大數據存儲 12
四、大數據分析處理 12
五、大數據可視化 12
任務四 認識大數據信息安全 13
項目小結 14
項目考核 15
走進Hadoop世界 16
項目導讀 16
項目目標 16
課前學習 16
任務一 認識Hadoop 17
一、Hadoop簡介 17
二、Hadoop的產生與發展 17
三、Hadoop的特性 18
四、Hadoop版本變遷 18
五、Hadoop應用現狀 20
任務二 認識Hadoop生態系統 21
任務三 認識Spark 23
項目小結 25
項目考核 25
搭建Hadoop集群 26
項目導讀 26
項目目標 26
課前學習 26
任務一 安裝CentOS 7 27
一、創建虛擬機 27
二、安裝CentOS 7 29
三、克隆虛擬機 35
任務二 配置虛擬機集群環境 37
一、設置靜態IP地址 37
二、修改主機名 40
三、綁定主機名和IP地址 41
四、配置SSH免密登錄 43
任務三 搭建Hadoop分布式集群 44
一、安裝JDK 44
二、安裝與配置Hadoop 47
三、啟動Hadoop分布式集群 51
項目實訓 55
項目小結 55
項目考核 55
HDFS 57
項目導讀 57
項目目標 57
課前學習 57
任務一 認識分布式文件系統 58
任務二 認識HDFS 58
一、HDFS簡介 59
二、HDFS的特點 59
三、塊 60
四、名稱節點和數據節點 61
五、第二名稱節點 62
任務三 認識HDFS運行機制 64
一、副本機制 64
二、高可用集群機制 64
三、心跳機制 66
四、數據回收機制 66
五、集群安全模式 66
任務四 HDFS工作流程 67
一、啟動流程 67
二、讀數據流程 68
三、寫數據流程 68
任務五 HDFS基本操作 69
一、HDFS命令行操作 69
二、HDFS API操作 71
項目實訓 74
項目小結 75
項目考核 75
MapReduce分布式
計算 76
項目導讀 76
項目目標 76
課前學習 76
任務一 MapReduce概述 77
一、分布式並行計算 77
二、MapReduce簡介 78
三、MapReduce的特點 79
任務二 MapReduce框架原理 80
一、MapReduce工作流程 80
二、數據分片 82
三、Map階段 83
四、Shuffle階段 83
五、Reduce階段 84
任務三 Hadoop序列化 84
任務四 單詞統計分析 86
一、MapReduce編程規範 86
二、設計思路 86
三、設計過程 87
四、代碼實現 88
任務五 YARN資源調度管理框架 92
一、YARN基本架構 92
二、YARN的配置 93
三、將MapReduce程序提交給
YARN運行 95
任務六 案例分析 99
一、數據清洗案例 99
二、使用MapReduce求TOPN 103
三、MapReduce開發總結 108
任務七 MapReduce性能調優 109
一、MapReduce性能 109
二、MapReduce優化方法 110
三、常用的調優參數 111
項目實訓 113
項目小結 113
項目考核 114
ZooKeeper 115
項目導讀 115
項目目標 115
課前學習 115
任務一 ZooKeeper概述 116
一、ZooKeeper簡介 116
二、ZooKeeper工作機制 116
任務二 ZooKeeper的安裝與配置 117
任務三 搭建高可用集群 120
項目實訓 126
項目小結 126
項目考核 126
Hive數據倉庫 127
項目導讀 127
項目目標 127
課前學習 127
任務一 Hive概述 128
一、Hive應用場景 128
二、數據倉庫 128
三、Hive簡介 129
任務二 Hive的安裝與配置 131
一、MySQL的安裝 131
二、安裝與配置Hive 133
三、驗證Hive 136
任務三 表操作 138
一、創建數據庫 138
二、查詢數據庫 138
三、刪除數據庫 139
四、Hive表 139
五、數據導入 144
六、數據導出 145
七、修改表 147
八、刪除表 147
九、查詢 147
任務四 Hive數據類型 152
一、基本數據類型 152
二、復合數據類型 152
任務五 Hive函數 154
一、內置函數 154
二、窗口函數 155
任務六 數據遷移工具Sqoop 156
一、Sqoop簡介 156
二、安裝Sqoop 157
三、導入導出數據 157
任務七 案例分析 160
一、漢字統計分析 160
二、統計日誌數據 161
項目實訓 164
項目小結 164
項目考核 164
HBase實戰 166
項目導讀 166
項目目標 166
課前學習 166
任務一 HBase概述 167
一、非關系型數據庫簡介 167
二、HBase簡介 168
三、HBase實現原理 169
四、HBase的數據模型 171
任務二 HBase的安裝與配置 173
任務三 HBase Shell命令操作 176
任務四 HBase Java API操作 178
項目實訓 181
項目小結 182
項目考核 182
Flume實戰 184
項目導讀 184
項目目標 184
課前學習 184
任務一 Flume概述 185
一、Flume簡介 185
二、Flume工作機制 186
任務二 Flume的安裝與配置 188
任務三 采集日誌數據到HDFS 188
任務四 采集文件數據到HDFS 191
任務五 采集端口數據到HDFS 192
項目實訓 194
項目小結 194
項目考核 194
Kafka實戰 195
項目導讀 195
項目目標 195
課前學習 195
任務一 Kafka概述 196
一、消息隊列 196
二、Kafka簡介 197
三、Kafka工作機制 199
任務二 Kafka的安裝 201
一、安裝Scala 201
二、Kafka的安裝步驟 202
任務三 組件驗證部署 203
任務四 Kafka API 205
一、消息發送流程 205
二、異步發送API 206
三、Consumer API 208
任務五 案例分析 211
項目實訓 213
項目小結 213
項目考核 214
綜合案例分析 215
項目導讀 215
項目目標 215
課前學習 215
任務一 案例簡介 216
任務二 數據采集 216
任務三 數據預處理 217
任務四 離線計算 227
任務五 數據分析 233

