Hadoop大數據開發基礎與案例實戰（微課版）

薛明誌簡艷英唐佐俠

預覽內頁

出版商: 人民郵電
出版日期: 2025-03-01
定價: $359
售價: $358
語言: 簡體中文
頁數: 236
ISBN: 7115655774
ISBN-13: 9787115655776
相關分類: Hadoop

下單後立即進貨 (約4週~6週)

商品描述

本書較為全面地介紹了Hadoop的應用與開發。全書共11個項目，主要介紹了大數據的基本概念及應用領域、Hadoop的產生及其生態系統、搭建Hadoop集群、HDFS、MapReduce分布式計算、ZooKeeper、Hive數據倉庫、HBase實戰、Flume實戰、Kafka實戰等，還提供了1個綜合案例分析，通過練習和操作實踐，幫助讀者鞏固所學內容。本書可以作為高等院校大數據技術專業“Hadoop大數據開發”課程的教材，也可以作為Hadoop大數據開發培訓的教材，也適合大數據開發人員、大數據平臺運維人員和廣大大數據技術愛好者自學使用。

作者簡介

薛明誌，博士，教授，商丘職業技術學院黨委書記、院長。河南省“三五人才工程”第三層次科研人員，度河南省教育廳學術技術帶頭人，曾獲商丘市首屆青年科技創新傑出獎，河南省高校優秀青年骨幹教師。

目錄大綱

走進大數據世界　1

項目導讀　1

項目目標　1

課前學習　1

任務一　認識大數據　2

一、大數據產生的時代背景　2

二、大數據概念　3

三、大數據特點　4

四、大數據的應用領域　5

五、大數據的發展歷程和發展趨勢　7

任務二　認識大數據計算模式　9

一、批處理計算　9

二、流計算　10

三、圖計算　10

四、查詢分析計算　10

任務三　認識大數據處理流程　11

一、大數據采集　11

二、大數據預處理　11

三、大數據存儲　12

四、大數據分析處理　12

五、大數據可視化　12

任務四　認識大數據信息安全　13

項目小結　14

項目考核　15

走進Hadoop世界　16

項目導讀　16

項目目標　16

課前學習　16

任務一　認識Hadoop　17

一、Hadoop簡介　17

二、Hadoop的產生與發展　17

三、Hadoop的特性　18

四、Hadoop版本變遷　18

五、Hadoop應用現狀　20

任務二　認識Hadoop生態系統　21

任務三　認識Spark　23

項目小結　25

項目考核　25

搭建Hadoop集群　26

項目導讀　26

項目目標　26

課前學習　26

任務一　安裝CentOS 7　27

一、創建虛擬機　27

二、安裝CentOS　7　29

三、克隆虛擬機　35

任務二　配置虛擬機集群環境　37

一、設置靜態IP地址　37

二、修改主機名　40

三、綁定主機名和IP地址　41

四、配置SSH免密登錄　43

任務三　搭建Hadoop分布式集群　44

一、安裝JDK　44

二、安裝與配置Hadoop　47

三、啟動Hadoop分布式集群　51

項目實訓　55

項目小結　55

項目考核　55

HDFS　57

項目導讀　57

項目目標　57

課前學習　57

任務一　認識分布式文件系統　58

任務二　認識HDFS　58

一、HDFS簡介　59

二、HDFS的特點　59

三、塊　60

四、名稱節點和數據節點　61

五、第二名稱節點　62

任務三　認識HDFS運行機制　64

一、副本機制　64

二、高可用集群機制　64

三、心跳機制　66

四、數據回收機制　66

五、集群安全模式　66

任務四　HDFS工作流程　67

一、啟動流程　67

二、讀數據流程　68

三、寫數據流程　68

任務五　HDFS基本操作　69

一、HDFS命令行操作　69

二、HDFS　API操作　71

項目實訓　74

項目小結　75

項目考核　75

MapReduce分布式

計算　76

項目導讀　76

項目目標　76

課前學習　76

任務一　MapReduce概述　77

一、分布式並行計算　77

二、MapReduce簡介　78

三、MapReduce的特點　79

任務二　MapReduce框架原理　80

一、MapReduce工作流程　80

二、數據分片　82

三、Map階段　83

四、Shuffle階段　83

五、Reduce階段　84

任務三　Hadoop序列化　84

任務四　單詞統計分析　86

一、MapReduce編程規範　86

二、設計思路　86

三、設計過程　87

四、代碼實現　88

任務五　YARN資源調度管理框架　92

一、YARN基本架構　92

二、YARN的配置　93

三、將MapReduce程序提交給

YARN運行　95

任務六　案例分析　99

一、數據清洗案例　99

二、使用MapReduce求TOPN　103

三、MapReduce開發總結　108

任務七　MapReduce性能調優　109

一、MapReduce性能　109

二、MapReduce優化方法　110

三、常用的調優參數　111

項目實訓　113

項目小結　113

項目考核　114

ZooKeeper　115

項目導讀　115

項目目標　115

課前學習　115

任務一　ZooKeeper概述　116

一、ZooKeeper簡介　116

二、ZooKeeper工作機制　116

任務二　ZooKeeper的安裝與配置　117

任務三　搭建高可用集群　120

項目實訓　126

項目小結　126

項目考核　126

Hive數據倉庫　127

項目導讀　127

項目目標　127

課前學習　127

任務一　Hive概述　128

一、Hive應用場景　128

二、數據倉庫　128

三、Hive簡介　129

任務二　Hive的安裝與配置　131

一、MySQL的安裝　131

二、安裝與配置Hive　133

三、驗證Hive　136

任務三　表操作　138

一、創建數據庫　138

二、查詢數據庫　138

三、刪除數據庫　139

四、Hive表　139

五、數據導入　144

六、數據導出　145

七、修改表　147

八、刪除表　147

九、查詢　147

任務四　Hive數據類型　152

一、基本數據類型　152

二、復合數據類型　152

任務五　Hive函數　154

一、內置函數　154

二、窗口函數　155

任務六　數據遷移工具Sqoop　156

一、Sqoop簡介　156

二、安裝Sqoop　157

三、導入導出數據　157

任務七　案例分析　160

一、漢字統計分析　160

二、統計日誌數據　161

項目實訓　164

項目小結　164

項目考核　164

HBase實戰　166

項目導讀　166

項目目標　166

課前學習　166

任務一　HBase概述　167

一、非關系型數據庫簡介　167

二、HBase簡介　168

三、HBase實現原理　169

四、HBase的數據模型　171

任務二　HBase的安裝與配置　173

任務三　HBase Shell命令操作　176

任務四　HBase Java API操作　178

項目實訓　181

項目小結　182

項目考核　182

Flume實戰　184

項目導讀　184

項目目標　184

課前學習　184

任務一　Flume概述　185

一、Flume簡介　185

二、Flume工作機制　186

任務二　Flume的安裝與配置　188

任務三　采集日誌數據到HDFS　188

任務四　采集文件數據到HDFS　191

任務五　采集端口數據到HDFS　192

項目實訓　194

項目小結　194

項目考核　194

Kafka實戰　195

項目導讀　195

項目目標　195

課前學習　195

任務一　Kafka概述　196

一、消息隊列　196

二、Kafka簡介　197

三、Kafka工作機制　199

任務二　Kafka的安裝　201

一、安裝Scala　201

二、Kafka的安裝步驟　202

任務三　組件驗證部署　203

任務四　Kafka API　205

一、消息發送流程　205

二、異步發送API　206

三、Consumer　API　208

任務五　案例分析　211

項目實訓　213

項目小結　213

項目考核　214

綜合案例分析　215

項目導讀　215

項目目標　215

課前學習　215

任務一　案例簡介　216

任務二　數據采集　216

任務三　數據預處理　217

任務四　離線計算　227

任務五　數據分析　233

Hadoop大數據開發基礎與案例實戰（微課版）

薛明誌簡艷英唐佐俠

商品描述

作者簡介

目錄大綱

類似商品

最後瀏覽商品 (12)

Hadoop大數據開發基礎與案例實戰（微課版）

薛明誌 簡艷英 唐佐俠

商品描述

作者簡介

目錄大綱

類似商品

最後瀏覽商品 (12)

薛明誌簡艷英唐佐俠