Hadoop大數據技術原理與應用(第2版)

黑馬程序員

  • 出版商: 清華大學
  • 出版日期: 2023-07-01
  • 定價: $359
  • 售價: 8.5$305
  • 語言: 簡體中文
  • ISBN: 7302633967
  • ISBN-13: 9787302633969
  • 相關分類: Hadoop大數據 Big-data
  • 下單後立即進貨 (約4週~6週)

  • Hadoop大數據技術原理與應用(第2版)-preview-1
  • Hadoop大數據技術原理與應用(第2版)-preview-2
  • Hadoop大數據技術原理與應用(第2版)-preview-3
Hadoop大數據技術原理與應用(第2版)-preview-1

商品描述

本書以Hadoop 3.x為主線,全面介紹Hadoop及其生態體系中常用的大數據開源項目的安裝和使用。全書共11章,分別講解大數據概念、Hadoop基礎知識、Hadoop集群部署、HDFS、MapReduce、YARN、ZooKeeper、Hive、Flume、Azkaban和Sqoop,並在最後開發一個完整的網站流量日誌分析系統,幫助讀者鞏固前面所學的內容。 本書附有配套視頻、教學課件、教學設計、測試題等資源;同時,為了幫助初學者更好地學習本書的內容,還提供在線答疑,歡迎讀者關註。 本書可作為高等教育本科院校數據科學與大數據技術及相關專業的教材,並適合大數據開發初學者、大數據運維人員以及大數據分析與挖掘領域的從業者閱讀。

目錄大綱

目錄

第1章初識Hadoop1

1.1大數據概述1

1.1.1什麽是大數據1

1.1.2大數據的數據類型2

1.1.3大數據的特徵2

1.1.4研究大數據的意義3

1.2大數據的應用場景3

1.2.1醫療行業的應用3

1.2.2金融行業的應用4

1.2.3零售行業的應用4

1.3Hadoop概述5

1.3.1Hadoop的前世今生5

1.3.2Hadoop的優點6

1.3.3Hadoop的缺點6

1.3.4Hadoop的生態體系6

1.3.5Hadoop架構變遷8

1.4本章小結10

1.5課後習題10

第2章部署Hadoop11

2.1安裝準備11

2.1.1創建虛擬機11

2.1.2克隆虛擬機21

2.1.3配置虛擬機23

2.1.4安裝JDK31

2.2Hadoop集群部署模式33

2.3基於偽分佈式模式部署

Hadoop34

2.4基於完全分佈式模式部署

Hadoop40

2.5案例——詞頻統計47

2.6本章小結50

2.7課後習題51

第3章HDFS分佈式文件系統52

3.1文件系統的分類52

3.2HDFS簡介54

3.2.1HDFS架構54

3.2.2HDFS的特點56

3.3HDFS的文件讀寫流程57

3.4HDFS的健壯性59

3.5HDFS的Shell操作60

3.5.1HDFS Shell介紹60

3.5.2案例——通過Shell腳本定

時採集數據到HDFS …68

3.6HDFS的Java API操作72

3.6.1HDFS的Java API

介紹72

3.6.2案例——使用Java API

操作HDFS73

3.7Federation機制82

3.7.1Federation機制的實現

原理82

3.7.2Federation機制的

特點84

3.7.3Federation機制的

實現84

3.8Erasure Coding 88

3.9本章小結91

3.10課後習題92目錄Hadoop大數據技術原理與應用(第2版)第4章MapReduce分佈式計算框架…93

4.1MapReduce概述93

4.2MapReduce編程模型94

4.3MapReduce工作原理96

4.3.1MapReduce工作過程 … 96

4.3.2MapTask工作原理97

4.3.3ReduceTask工作

原理  98

4.3.4Shuffle工作原理99

4.4MapReduce編程組件100

4.4.1InputFormat組件100

4.4.2Mapper組件101

4.4.3Reducer組件103

4.4.4Partitioner組件104

4.4.5OutputFormat

組件106

4.5MapReduce驅動類107

4.6MapReduce性能優化策略 …110

4.7YARN資源管理框架112

4.7.1YARN基本架構112

4.7.2YARN工作流程113

4.8MapReduce經典案例——數據

去重114

4.8.1案例分析114

4.8.2案例實現116

4.9MapReduce經典案例——

TopN118

4.9.1案例分析118

4.9.2案例實現119

4.10MapReduce經典案例——

倒排索引121

4.10.1倒排索引介紹121

4.10.2案例分析122

4.10.3案例實現124

4.11本章小結129

4.12課後習題130

第5章ZooKeeper分佈式協調服務 … 131

5.1ZooKeeper簡介131

5.1.1ZooKeeper特性132

5.1.2ZooKeeper集群架構 …132

5.2ZooKeeper數據模型133

5.3ZooKeeper典型應用場景134

5.4ZooKeeper的Watcher機制 …135

5.5ZooKeeper的選舉機制136

5.6部署ZooKeeper集群138

5.6.1基於偽分佈式模式部署

ZooKeeper集群139

5.6.2基於完全分佈式模式部署

ZooKeeper集群142

5.7ZooKeeper的Shell操作146

5.8ZooKeeper的Java API操作 …153

5.8.1創建會話153

5.8.2操作ZooKeeper154

5.9本章小結160

5.10課後習題160

第6章Hadoop高可用集群161

6.1HDFS高可用集群161

6.2YARN高可用集群163

6.3部署Hadoop高可用集群164

6.4本章小結180

6.5課後習題180

第7章Hive數據倉庫181

7.1數據倉庫簡介181

7.1.1什麽是數據倉庫181

7.1.2數據倉庫系統結構182

7.1.3數據倉庫分層183

7.1.4數據倉庫模型184

7.2Hive簡介185

7.2.1Hive與傳統關系數據庫

的區別185

7.2.2Hive系統架構186

7.2.3Hive工作原理187

7.2.4Hive數據存儲模型 …188

7.3Hive的部署189

7.3.1內嵌模式189

7.3.2本地模式192

7.3.3遠程模式197

7.4Hive數據類型200

7.5數據庫操作202

7.5.1創建數據庫202

7.5.2查看數據庫信息203

7.5.3修改數據庫屬性204

7.5.4刪除數據庫204

7.6表操作205

7.6.1創建表205

7.6.2查看表208

7.6.3修改表209

7.6.4刪除表211

7.6.5修改分區212

7.7數據操作215

7.7.1導入數據215

7.7.2向分區導入數據218

7.7.3查詢數據221

7.7.4查詢插入228

7.7.5關聯查詢230

7.8本章小結233

7.9課後習題233

第8章Flume日誌採集系統235

8.1Flume概述235

8.2Flume日誌採集系統結構236

8.3Flume的部署238

8.4Flume的基本使用239

8.5Flume的採集方案242

8.5.1Flume Sources243

8.5.2Flume Channels245

8.5.3Flume Sinks247

8.6Flume攔截器251

8.7Flume的可靠性保證253

8.7.1負載均衡253

8.7.2故障恢復259

8.8案例——將日誌採集到

HDFS263

8.8.1案例分析264

8.8.2案例實現264

8.9本章小結271

8.10課後習題271

第9章Azkaban工作流管理器272

9.1工作流管理器概述272

9.2Azkaban概述273

9.3部署Azkaban274

9.3.1Azkaban部署模式274

9.3.2安裝Azkaban274

9.3.3配置Azkaban276

9.3.4啟動Azkaban279

9.4Azkaban的使用283

9.4.1Azkaban的常用

概念283

9.4.2案例演示——依賴任務

調度管理284

9.4.3案例演示——MapReduce

程序調度管理290

9.4.4案例演示——Hive腳本

任務調度管理295

9.5本章小結299

9.6課後習題299

第10章Sqoop數據遷移301

10.1Sqoop概述301

10.1.1Sqoop簡介301

10.1.2Sqoop原理302

10.2Sqoop安裝配置303

10.3Sqoop命令介紹305

10.4Sqoop數據的導入306

10.4.1數據準備307

10.4.2MySQL導入

HDFS 308

10.4.3增量導入310

10.4.4MySQL導入Hive …311

10.4.5MySQL過濾導入

HDFS312

10.5Sqoop數據的導出314

10.6本章小結315

10.7課後習題316

第11章綜合項目——網站流量日誌

數據分析系統31711.1系統概述317

11.1.1系統背景介紹317

11.1.2需求分析317

11.1.3系統架構318

11.2模塊開發319

11.3本章小結319