商品描述
本書以項目實戰為核心載體,采用任務驅動教學模式,系統且深入地解析Hadoop生態圈中主流的大數據開發技術。全書精心編排 7個項目,從Hadoop的基礎理論入門,逐步深入到Hadoop集群環境配置、Hadoop分布式文件系統、MapReduce分布式計算框架,再到 MapReduce離線數據處理、基於Hive的離線數據分析,最後以綜合項目實戰,構建起完整的知識體系。書中提供了詳細且易操作的步驟指引,即便是零基礎的讀者,也能通過練習,順利搭建穩定的Hadoop集群,並獨立完成復雜的項目開發。本書兼具通俗易懂的語言表達與豐富實用的技術細節的特點,不僅是大數據開發初學者夯實基礎的“入門寶典”,也是大數據運維人員優化技能、大數據分析與挖掘從業者提升實戰能力的“進階指南”。此外,本書可作為培訓機構的專業培訓教材,以及高等院校大數據技術專業課程的優質教學用書,可助力培養理論與實踐統一的大數據專業人才。
目錄大綱
目 錄
項目一 Hadoop 介紹	1
【思維導圖】	1
【項目導入】	1
任務 1.1 大數據概述	1
1.1.1 了解大數據	1
1.1.2 大數據的特征	2
1.1.3 大數據的應用領域	3
1.1.4 拓展提升	4
任務 1.2 Hadoop 生態圈	5
1.2.1 Hadoop 發展歷史	5
1.2.2 Hadoop 的優勢	5
1.2.3 Hadoop 1.x 和 Hadoop 2.x 的區別	6
1.2.4 Hadoop 生態組件	7
1.2.5 拓展提升	8
【動手練習】	9
【課後習題】	9
項目二 Hadoop 集群環境配置	10
【思維導圖】	10
【項目導入】	10
任務 2.1 安裝和配置虛擬機	11
2.1.1 安裝 VMware虛擬機軟件	11
2.1.2 部署 CentOS 7	16
2.1.3 Linux 操作系統網絡配置	29
2.1.4 虛擬機克隆	36
2.1.5 主機名與 IP 地址映射配置	40
2.1.6 虛擬機遠程連接	42
2.1.7 關閉防火墻	45
2.1.8 拓展提升	45
任務 2.2 完全分布式集群搭建	48
2.2.1 JDK 安裝與測試	48
2.2.2 SSH 免密登錄配置	50
2.2.3 時間同步服務配置	53
2.2.4 Hadoop 安裝	55
2.2.5 Hadoop 集群配置	57
2.2.6 集群啟動與關閉	61
2.2.7 拓展提升	63
【動手練習】	66
【課後習題】	66
項目三 HDFS 分布式文件系統	68
【思維導圖】	68
【項目導入】	68
任務 3.1 HDFS 簡介	69
3.1.1 HDFS 定義	69
3.1.2 HDFS 體系結構	69
3.1.3 HDFS Shell 命令	70
3.1.4 拓展提升	79
任務 3.2 HDFS 的 Java API 操作	81
3.2.1 HDFS 常見類與接口	81
3.2.2 FileSystem 的常用方法	82
3.2.3 HDFS 創建目錄	82
3.2.4 HDFS 創建文件	88
3.2.5 HDFS 文件上傳	89
3.2.6 HDFS 文件下載	90
3.2.7 HDFS 文件刪除	90
3.2.8 HDFS 文件名更改	91
3.2.9 HDFS 文件詳情查看	92
3.2.10 HDFS 文件和目錄判斷	93
3.2.11 拓展提升	94
【動手練習】	95
【課後習題】	96
項目四 MapReduce 分布式計算框架	97
【思維導圖】	97
【項目導入】	97
任務 4.1 MapReduce 簡介	97
4.1.1 設計思路	98
4.1.2 任務流程	99
4.1.3 工作原理	100
4.1.4 拓展提升	102
任務 4.2 MapReduce 程序編寫	103
4.2.1 MapReduce 編程組件	103
4.2.2 MapReduce 程序編寫	104
4.2.3 拓展提升	108
【動手練習】	108
【課後習題】	109
項目五 MapReduce 離線數據處理	110
【思維導圖】	110
【項目導入】	111
任務 5.1 酒店數據清洗	111
5.1.1 任務需求	111
5.1.2 設計思路	111
5.1.3 基礎準備	111
5.1.4 程序編寫	114
5.1.5 程序運行	116
5.1.6 程序打包	117
5.1.7 集群運行	118
5.1.8 拓展提升	119
任務 5.2 MapReduce 計算平均成績	121
5.2.1 任務需求	121
5.2.2 設計思路	121
5.2.3 程序編寫	122
5.2.4 程序運行	124
5.2.5 拓展提升	125
任務 5.3 高考成績統計分析	125
5.3.1 任務需求	125
5.3.2 設計思路	126
5.3.3 程序編寫	126
5.3.4 程序運行	131
5.3.5 拓展提升	132
任務 5.4 MapReduce 在商品推薦中的應用	133
5.4.1 任務需求	133
5.4.2 設計思路	133
5.4.3 程序編寫	135
5.4.4 程序運行	147
5.4.5 拓展提升	148
【動手練習】	148
【課後習題】	148
項目六 基於 Hive 的離線數據分析	150
【思維導圖】	150
【項目導入】	151
任務 6.1 認識 Hive 數據倉庫	151
6.1.1 Hive 體系架構	151
6.1.2 Hive 的三種運行模式	153
6.1.3 Hive 數據類型	154
6.1.4 拓展提升	155
任務 6.2 Hive 部署	156
6.2.1 Hive 部署之內嵌模式	156
6.2.2 Hive 部署之本地模式	160
6.2.3 Hive 部署之遠程模式	168
6.2.4 拓展提升	171
任務 6.3 Hive 數據庫操作	171
6.3.1 創建數據庫	171
6.3.2 顯示數據庫	172
6.3.3 查看數據庫信息	173
6.3.4 修改數據庫信息	173
6.3.5 選擇數據庫	174
6.3.6 刪除數據庫	174
6.3.7 拓展提升	174
6.4 Hive 表操作	174
6.4.1 創建 Hive 表的語法	174
6.4.2 內部表操作	175
6.4.3 外部表操作	176
6.4.4 分區表的操作	177
6.4.5 分桶表的操作	181
6.4.6 拓展提升	183
任務 6.5 Hive 表的查詢	184
6.5.1 select查詢	184
6.5.2 join 連接查詢	192
6.5.3 拓展提升	194
【動手練習】	196
【課後習題】	197
項目七 綜合項目實踐	199
【思維導圖】	199
【項目導入】	199
任務 7.1 項目基礎知識	200
7.1.1 數據清洗簡介	200
7.1.2 數據分析簡介	202
7.1.3 數據可視化簡介	202
7.1.4 ECharts 可視化簡介	203
7.1.5 拓展提升	206
任務 7.2 電商數據分析與可視化	206
7.2.1 任務需求	206
7.2.2 設計思路	206
7.2.3 程序編寫	207
7.2.4 程序運行	221
7.2.5 拓展提升	222
【動手練習】	222
【課後習題】	222

 
    
 
     
     
    
 
     
    
 
     
     
     
     
    
 
     
    
 
    
 
    
 
     
     
     
     
     
     
     
     
     
    
 
    
 
     
     
    