Hadoop大數據技術與應用

楊治明許桂秋

出版商: 人民郵電
出版日期: 2019-03-01
售價: $330
語言: 簡體中文
頁數: 287
裝訂: 平裝
ISBN: 7115503532
ISBN-13: 9787115503534
相關分類: Hadoop

下單後立即進貨 (約4週~6週)

商品描述

本書採用理論與實踐相結合的方式，全面介紹了Hadoop大數據技術。主要內容包括初識Hadoop大數據技術、Hadoop環境配置，分佈式文件系統HDFS、資源調度框架YARN、分佈式計算框架MapReduce、大數據數據倉庫Hive、分佈式數據庫HBase、查詢大型半結構化數據集的語言Pig、分佈式日誌採集工具Flume、分佈式數據庫與傳統數據庫數據相互轉換工具Sqoop。

作者簡介

楊治明，教授，現任重慶科技學院數理與大數據學院院長，數據科學與大數據技術專業負責人。現任重慶市教委教育信息化專家委員會成員、重慶市人工智能技術創新戰略聯盟專家委員會成員。獲得國家級教學成果獎1項、重慶市高等教育教學成果獎二等獎、三等獎各1項。

目錄大綱

第1章初識Hadoop大數據技術1
1.1大數據技術概述1
1.1.1大數據產生的背景1
1.1.2大數據的定義2
1.1.3大數據技術的發展2
1.2 Google的“三駕馬車” 3
1.2.1 GFS的思想3
1.2.2 MapReduce的思想4
1.2.3 BigTable的思想6
1.3 Hadoop概述8
1.3.1 Hadoop對Google公司三篇論文思想的實現8
1.3.2 Hadoop的發展歷史9
1.3. 3 Hadoop版本的演變11
1.3.4 Hadoop的發行版本12
1.3.5 Hadoop的特點12
1.4 Hadoop生態圈12
1.5 Hadoop的典型應用場景與應用架構13
1.5.1 Hadoop的典型應用場景13
1.5.2 Hadoop的典型應用架構14
習題15

第2章Hadoop環境設置16
2.1安裝前準備16
2.1.1安裝虛擬機17
2.1.2安裝Ubuntu操作系統20
2.1.3關閉防火牆22
2.1.4 SSH安裝22
2.1.5安裝Xshell及Xftp 22
2.1.6安裝JDK 24
2.1.7下載Hadoop並解壓25
2.1.8克隆主機27
2.2 Hadoop的安裝28
2.2.1安裝單機模式28
2.2.2安裝偽分佈式模式29
2.2 .3安裝完全分佈式模式35
習題41
實驗搭建Hadoop偽分佈式模式環境42

第3章HDFS 44
3.1 HDFS簡介44
3.2 HDFS的組成與架構45
3.2.1 NameNode 45
3.2.2 DataNode 46
3.2.3 SecondaryNameNode 46
3.3 HDFS的工作機制47
3.3.1機架感知與副本冗餘存儲策略47
3.3.2文件讀取49
3.3.3文件寫入50
3.3.4數據容錯52
3.4 HDFS操作53
3.4.1通過Web界面進行HDFS操作53
3.4.2通過HDFS Shell進行HDFS操作54
3.4.3通過HDFS API進行HDFS操作60
3.5 HDFS的高級功能68
3.5.1安全模式68
3.5.2回收站69
3.5.3快照70
3.5.4配額71
3.5.5高可用性71
3.5.6聯邦72
習題74
實驗1通過Shell命令訪問HDFS 74
實驗2熟悉基於IDEA+Maven的Java開發環境77
實驗3通過API訪問HDFS 86

第4章YARN 90
4.1 YARN產生的背景90
4.2初識YARN 92
4.3 YARN的架構93
4.3.1 YARN架構概述93
4.3.2 YARN中應用運行的機制94
4.3.3 YARN中任務進度的監控94
4.3. 4 MapReduce 1與YARN的組成對比95
4.4 YARN的調度器95
4.4.1先進先出調度器95
4.4.2容器調度器96
4.4.3公平調度器97
4.4.4三種調度器的比較98
習題98

第5章MapReduce 99
5.1 MapReduce概述99
5.1.1 MapReduce是什麼99
5.1.2 MapReduce的特點99
5.1.3 MapReduce不擅長的場景100
5.2 MapReduce編程模型100
5.2.1 MapReduce編程模型概述100
5.2.2 MapReduce編程實例101
5.3 MapReduce編程進階112
5.3.1 MapReduce的輸入格式112
5.3.2 MapReduce的輸出格式114
5.3.3分區115
5.3.4合併118
5.4 MapReduce的工作機制119
5.4.1 MapReduce作業的運行機制119
5.4.2進度和狀態的更新120
5.4.3 Shuffle 121
5.5 MapReduce編程案例122
5.5.1排序122
5.5.2去重126
5.5.3多表查詢127
習題129
實驗1分析和編寫WordCount程序130
實驗2 MapReduce序列化、分區實驗131
實驗3使用MapReduce求出各年銷售筆數、各年銷售總額134
實驗4使用MapReduce統計用戶在搜狗上的搜索數據136

第6章HBase、Hive、Pig 139
6.1 HBase 139
6.1.1行式存儲與列式存儲139
6.1.2 HBase簡介140
6.1.3 HBase的數據模型141
6.1.4 HBase的物理模型143
6.1.5 HBase的系統架構144
6.1.6 HBase的安裝147
6.1.7訪問HBase 152
6.2 Hive 157
6.2.1安裝Hive 157
6.2.2 Hive的架構與工作原理160
6.2.3 Hive的數據類型與存儲格式163
6.2.4 Hive的數據模型167
6.2.5查詢數據169
6.2.6用戶定義函數170
6.3 Pig 171
6.3.1 Pig概述171
6.3.2安裝Pig 172
6.3.3 Pig Latin編程語言172
6.3.4 Pig代碼實例177
6.3.5用戶自定義函數179
習題181
實驗1 HBase實驗——安裝和配置（可選） 181
實驗2 HBase實驗——通過HBase Shell訪問HBase（可選） 185
實驗3 HBase實驗——通過Java API訪問HBase 187
實驗4 HBase實驗——通過Java API開發基於HBase的MapReduce程序189
實驗5 Hive實驗——Metastore採用Local模式（MySQL數據庫）搭建Hive環境（可選） 191
實驗6 Hive實驗——Hive常用操作193
實驗7 Pig實驗——安裝和使用Pig（可選） 194
實驗8 Pig實驗——使用Pig Latin操作員工表和部門表195

第7章Flume 198
7.1 Flume產生的背景198
7.2 Flume簡介198
7.3 Flume的安裝199
7.4 Flume的架構200
7.5 Flume的應用201
7.5.1 Flume的組件類型及其配置項201
7.5.2 Flume的配置和運行方法206
7.5.3 Flume配置示例207
7.6 Flume的工作方式209
習題210
實驗1 Flume的配置與使用1——Avro Source + Memory Channel + Logger Sink 211
實驗2 Flume的配置與使用2——Syslogtcp Source + Memory Channel + HDFS Sink 212
實驗3 Flume的配置與使用3——Exec Source + Memory Channel + Logger Sink 213

第8章Sqoop 214
8.1 Sqoop背景簡介214
8.2 Sqoop的基本原理215
8.3 Sqoop的安裝與部署216
8.3.1下載與安裝216
8.3.2配置Sqoop 217
8.4 Sqoop應用219
8.4.1列出MySQL數據庫的基本信息219
8.4.2 MySQL和HDFS數據互導219
8.4.3 MySQL和Hive數據互導220
習題221
實驗Sqoop常用功能的使用222

第9章ZooKeeper 227
9.1 ZooKeeper簡介227
9.2 ZooKeeper的安裝228
9.2.1單機模式228
9.2 .2集群模式229
9.3 ZooKeeper的基本原理231
9.3.1 Paxos算法231
9.3.2 Zab算法232
9.3.3 ZooKeeper的架構232
9.3.4 ZooKeeper的數據模型233
9.4 ZooKeeper的簡單操作235
9.4.1通過ZooKeeper Shell命令操作ZooKeeper 235
9.4.2通過ZooInspector工具操作ZooKeeper 238
9.4.3通過Java API操作ZooKeeper 238
9.5 ZooKeeper的特性239
9.5.1會話239
9.5.2臨時節點240
9.5.3順序節點240
9.5.4事務操作241
9.5.5版本號241
9.5.6監視242
9.6 ZooKeeper的應用場景243
9.6.1 Master選舉244
9.6.2分佈式鎖245
習題246
實驗ZooKeeper的3種訪問方式246

第10章Ambari 249
10.1 Ambari簡介249
10.1.1背景249
10.1.2 Ambari的主要功能250
10.2 Ambari的安裝250
10.2.1安裝前準備250
10.2.2安裝Ambari 254
10.3利用Ambari管理Hadoop集群257
10.3.1安裝與配置HDP集群258
10.3.2節點的擴展264
10.3.3啟用HA 267
10.4 Ambari的架構和工作原理271
10.4.1 Ambari的總體架構271
10.4.2 Ambari Agent 272
10.4.3 Ambari Server 272
習題273

第11章Mahout 274
11.1 Mahout簡介274
11.1.1什麼是Mahout 274
11.1.2 Mahout能做什麼275
11.2 Taste簡介276
11.2.1 DataModel 276
11.2.2 Similarity 277
11.2.3 UserNeighborhood 277
11.2.4 Recommender 277
11.2.5 RecommenderEvaluator 277
11.2.6 RecommenderIRStatsEvaluator 278
11.3使用Taste構建推薦系統278
11.3.1創建Maven項目278
11.3.2導入Mahout依賴278
11.3.3獲取電影評分數據278
11.3 .4編寫基於用戶的推薦279
11.3.5編寫基於物品的推薦280
11.3.6評價推薦模型281
11.3.7獲取推薦的查準率和查全率281
習題282
實驗基於Mahout的電影推薦系統283
綜合實驗搜狗日誌查詢分析（MapReduce+Hive綜合實驗） 284
參考文獻287