相關主題
商品描述
本書以項目實戰為核心載體,采用任務驅動教學模式,系統且深入地解析Hadoop生態圈中主流的大數據開發技術。全書精心編排 7個項目,從Hadoop的基礎理論入門,逐步深入到Hadoop集群環境配置、Hadoop分布式文件系統、MapReduce分布式計算框架,再到 MapReduce離線數據處理、基於Hive的離線數據分析,最後以綜合項目實戰,構建起完整的知識體系。書中提供了詳細且易操作的步驟指引,即便是零基礎的讀者,也能通過練習,順利搭建穩定的Hadoop集群,並獨立完成復雜的項目開發。本書兼具通俗易懂的語言表達與豐富實用的技術細節的特點,不僅是大數據開發初學者夯實基礎的“入門寶典”,也是大數據運維人員優化技能、大數據分析與挖掘從業者提升實戰能力的“進階指南”。此外,本書可作為培訓機構的專業培訓教材,以及高等院校大數據技術專業課程的優質教學用書,可助力培養理論與實踐統一的大數據專業人才。
目錄大綱
目 錄
項目一 Hadoop 介紹 1
【思維導圖】 1
【項目導入】 1
任務 1.1 大數據概述 1
1.1.1 了解大數據 1
1.1.2 大數據的特征 2
1.1.3 大數據的應用領域 3
1.1.4 拓展提升 4
任務 1.2 Hadoop 生態圈 5
1.2.1 Hadoop 發展歷史 5
1.2.2 Hadoop 的優勢 5
1.2.3 Hadoop 1.x 和 Hadoop 2.x 的區別 6
1.2.4 Hadoop 生態組件 7
1.2.5 拓展提升 8
【動手練習】 9
【課後習題】 9
項目二 Hadoop 集群環境配置 10
【思維導圖】 10
【項目導入】 10
任務 2.1 安裝和配置虛擬機 11
2.1.1 安裝 VMware虛擬機軟件 11
2.1.2 部署 CentOS 7 16
2.1.3 Linux 操作系統網絡配置 29
2.1.4 虛擬機克隆 36
2.1.5 主機名與 IP 地址映射配置 40
2.1.6 虛擬機遠程連接 42
2.1.7 關閉防火墻 45
2.1.8 拓展提升 45
任務 2.2 完全分布式集群搭建 48
2.2.1 JDK 安裝與測試 48
2.2.2 SSH 免密登錄配置 50
2.2.3 時間同步服務配置 53
2.2.4 Hadoop 安裝 55
2.2.5 Hadoop 集群配置 57
2.2.6 集群啟動與關閉 61
2.2.7 拓展提升 63
【動手練習】 66
【課後習題】 66
項目三 HDFS 分布式文件系統 68
【思維導圖】 68
【項目導入】 68
任務 3.1 HDFS 簡介 69
3.1.1 HDFS 定義 69
3.1.2 HDFS 體系結構 69
3.1.3 HDFS Shell 命令 70
3.1.4 拓展提升 79
任務 3.2 HDFS 的 Java API 操作 81
3.2.1 HDFS 常見類與接口 81
3.2.2 FileSystem 的常用方法 82
3.2.3 HDFS 創建目錄 82
3.2.4 HDFS 創建文件 88
3.2.5 HDFS 文件上傳 89
3.2.6 HDFS 文件下載 90
3.2.7 HDFS 文件刪除 90
3.2.8 HDFS 文件名更改 91
3.2.9 HDFS 文件詳情查看 92
3.2.10 HDFS 文件和目錄判斷 93
3.2.11 拓展提升 94
【動手練習】 95
【課後習題】 96
項目四 MapReduce 分布式計算框架 97
【思維導圖】 97
【項目導入】 97
任務 4.1 MapReduce 簡介 97
4.1.1 設計思路 98
4.1.2 任務流程 99
4.1.3 工作原理 100
4.1.4 拓展提升 102
任務 4.2 MapReduce 程序編寫 103
4.2.1 MapReduce 編程組件 103
4.2.2 MapReduce 程序編寫 104
4.2.3 拓展提升 108
【動手練習】 108
【課後習題】 109
項目五 MapReduce 離線數據處理 110
【思維導圖】 110
【項目導入】 111
任務 5.1 酒店數據清洗 111
5.1.1 任務需求 111
5.1.2 設計思路 111
5.1.3 基礎準備 111
5.1.4 程序編寫 114
5.1.5 程序運行 116
5.1.6 程序打包 117
5.1.7 集群運行 118
5.1.8 拓展提升 119
任務 5.2 MapReduce 計算平均成績 121
5.2.1 任務需求 121
5.2.2 設計思路 121
5.2.3 程序編寫 122
5.2.4 程序運行 124
5.2.5 拓展提升 125
任務 5.3 高考成績統計分析 125
5.3.1 任務需求 125
5.3.2 設計思路 126
5.3.3 程序編寫 126
5.3.4 程序運行 131
5.3.5 拓展提升 132
任務 5.4 MapReduce 在商品推薦中的應用 133
5.4.1 任務需求 133
5.4.2 設計思路 133
5.4.3 程序編寫 135
5.4.4 程序運行 147
5.4.5 拓展提升 148
【動手練習】 148
【課後習題】 148
項目六 基於 Hive 的離線數據分析 150
【思維導圖】 150
【項目導入】 151
任務 6.1 認識 Hive 數據倉庫 151
6.1.1 Hive 體系架構 151
6.1.2 Hive 的三種運行模式 153
6.1.3 Hive 數據類型 154
6.1.4 拓展提升 155
任務 6.2 Hive 部署 156
6.2.1 Hive 部署之內嵌模式 156
6.2.2 Hive 部署之本地模式 160
6.2.3 Hive 部署之遠程模式 168
6.2.4 拓展提升 171
任務 6.3 Hive 數據庫操作 171
6.3.1 創建數據庫 171
6.3.2 顯示數據庫 172
6.3.3 查看數據庫信息 173
6.3.4 修改數據庫信息 173
6.3.5 選擇數據庫 174
6.3.6 刪除數據庫 174
6.3.7 拓展提升 174
6.4 Hive 表操作 174
6.4.1 創建 Hive 表的語法 174
6.4.2 內部表操作 175
6.4.3 外部表操作 176
6.4.4 分區表的操作 177
6.4.5 分桶表的操作 181
6.4.6 拓展提升 183
任務 6.5 Hive 表的查詢 184
6.5.1 select查詢 184
6.5.2 join 連接查詢 192
6.5.3 拓展提升 194
【動手練習】 196
【課後習題】 197
項目七 綜合項目實踐 199
【思維導圖】 199
【項目導入】 199
任務 7.1 項目基礎知識 200
7.1.1 數據清洗簡介 200
7.1.2 數據分析簡介 202
7.1.3 數據可視化簡介 202
7.1.4 ECharts 可視化簡介 203
7.1.5 拓展提升 206
任務 7.2 電商數據分析與可視化 206
7.2.1 任務需求 206
7.2.2 設計思路 206
7.2.3 程序編寫 207
7.2.4 程序運行 221
7.2.5 拓展提升 222
【動手練習】 222
【課後習題】 222