大數據技術基礎及應用教程(Linux+Hadoop+Spark)
井超//樊永生等
- 出版商: 機械工業
- 出版日期: 2022-07-29
- 定價: $359
- 售價: 7.9 折 $284
- 語言: 簡體中文
- 頁數: 228
- 裝訂: 平裝
- ISBN: 7111710916
- ISBN-13: 9787111710912
-
相關分類:
大數據 Big-data
立即出貨 (庫存 < 4)
買這商品的人也買了...
-
SQL Server 與 R 開發實戰講堂$680$578 -
$354scikit learn機器學習:常用算法原理及編程實戰 -
產品路線圖|從革新到蛻變 (Product Roadmapping: Align Your Teams, and Deliver the Most to Your Customers and Stakeholders)$580$458 -
Python 神乎其技:精要剖析語法精髓,大幅提升程式功力!$520$442 -
比 Tensorflow 還精美的人工智慧套件:PyTorch 讓你愛不釋手$620$527 -
類神經網路實戰:使用 Python (Make Your Own Neural Network)$420$328 -
$294捲積神經網絡的 Python 實現 -
$332推薦系統與深度學習 -
$474Python 大數據處理庫 PySpark 實戰 -
第一次用 Youtube 行銷就上手$450$383 -
$454Spark 3.x大數據分析實戰(視頻教學版) -
$505Hadoop 3.x 大數據開發實戰 (視頻教學版) -
$327Hadoop大數據技術基礎與應用 -
0接觸行銷術:活用 YouTube、Amazon、Google 三大平台,不用交際、不拉業務也能賺進大把訂單$400$340 -
Notion 應用再進化:Notion AI 輔助 + ChatGPT 實戰指南$690$545 -
YouTube 致富聖經:衝高流量與財富的秘密,你想知道 YouTube 的一切都在這裡!$480$379 -
Notion 與 Notion AI 全能實戰手冊:生活、學習與職場的智慧策略 (暢銷回饋版)$560$420 -
AI Agent 自動化流程超 Easy -- 不寫程式 No Code 聰明完成樣樣事$750$593
中文年末書展|繁簡參展書2書75折 詳見活動內容 »
-
75折
為你寫的 Vue Components:從原子到系統,一步步用設計思維打造面面俱到的元件實戰力 (iThome 鐵人賽系列書)$780$585 -
75折
BDD in Action, 2/e (中文版)$960$720 -
75折
看不見的戰場:社群、AI 與企業資安危機$750$563 -
79折
AI 精準提問 × 高效應用:DeepSeek、ChatGPT、Claude、Gemini、Copilot 一本搞定$390$308 -
7折
超實用!Word.Excel.PowerPoint 辦公室 Office 365 省時高手必備 50招, 4/e (暢銷回饋版)$420$294 -
75折
裂縫碎光:資安數位生存戰$550$412 -
日本當代最強插畫 2025 : 150位當代最強畫師豪華作品集$640$576 -
79折
Google BI 解決方案:Looker Studio × AI 數據驅動行銷實作,完美整合 Google Analytics 4、Google Ads、ChatGPT、Gemini$630$498 -
79折
超有料 Plus!職場第一實用的 AI 工作術 - 用對 AI 工具、自動化 Agent, 讓生產力全面進化!$599$473 -
75折
從零開始學 Visual C# 2022 程式設計, 4/e (暢銷回饋版)$690$518 -
75折
Windows 11 制霸攻略:圖解 AI 與 Copilot 應用,輕鬆搞懂新手必學的 Windows 技巧$640$480 -
75折
精準駕馭 Word!論文寫作絕非難事 (好評回饋版)$480$360 -
Sam Yang 的插畫藝術:用 Procreate / PS 畫出最強男友視角 x 女孩美好日常$699$629 -
79折
AI 加持!Google Sheets 超級工作流$599$473 -
78折
想要 SSR? 快使用 Nuxt 吧!:Nuxt 讓 Vue.js 更好處理 SEO 搜尋引擎最佳化(iThome鐵人賽系列書)$780$608 -
78折
超實用!業務.總管.人資的辦公室 WORD 365 省時高手必備 50招 (第二版)$500$390 -
7折
Node-RED + YOLO + ESP32-CAM:AIoT 智慧物聯網與邊緣 AI 專題實戰$680$476 -
79折
「生成式⇄AI」:52 個零程式互動體驗,打造新世代人工智慧素養$599$473 -
7折
Windows APT Warfare:惡意程式前線戰術指南, 3/e$720$504 -
75折
我輩程式人:回顧從 Ada 到 AI 這條程式路,程式人如何改變世界的歷史與未來展望 (We, Programmers: A Chronicle of Coders from Ada to AI)$850$637 -
75折
不用自己寫!用 GitHub Copilot 搞定 LLM 應用開發$600$450 -
79折
Tensorflow 接班王者:Google JAX 深度學習又快又強大 (好評回饋版)$780$616 -
79折
GPT4 會你也會 - 共融機器人的多模態互動式情感分析 (好評回饋版)$700$553 -
79折
技術士技能檢定 電腦軟體應用丙級術科解題教本|Office 2021$460$363 -
75折
Notion 與 Notion AI 全能實戰手冊:生活、學習與職場的智慧策略 (暢銷回饋版)$560$420
相關主題
商品描述
本書從大數據技術相關概念出發,系統介紹了構建大數據平臺的相關技術,並在此基礎上進行離線數據分析和在線數據分析。
全書共三篇,分為7章,內容包括技術基礎篇、分佈式集群篇、平臺構建篇,
第壹篇包括大數據技術概述、大數據分析技術,
第二篇包括Linux技術基礎、Hadoop技術基礎及構建Hadoop集群、Spark技術基礎及構建Spark集群,
第三篇包括構建基於Spark的實時交易數據統計平臺、構建基於Hadoop的離線電商大數據分析平臺。
本書以理論為基礎,以實例為引導,完整闡述瞭如何從無到有搭建大數據平臺,並在此平臺基礎上進行應用。
本書配套資源豐富,包括教學PPT、所有程序的源代碼、相關集群虛擬機、
擴展學習視頻、課後練習題及答案,可方便授課教師教學及學生自學。
本書可作為高校數據科學與大數據技術等相關專業的教材,也可作為對大數據技術感興趣的相關人員的參考用書。
目錄大綱
目錄
前言
第一篇 技術基礎篇
第1章 大數據技術概述2
1.1 大數據的基本概念2
1.1.1 大數據的產生階段2
1.1.2 大數據的特徵2
1.1.3 大數據在各個領域的應用3
1.1.4 大數據的核心技術和計算模式3
1.2 分佈式技術與集群4
1.2.1 分佈式技術概述4
1.2.2 分佈式大數據集群概述4
1.3 大數據技術生態圈7
1.3.1 Linux操作系統7
1.3.2 Hadoop生態系統9
1.3.3 Spark對Hadoop的完善13
本章小結13
本章練習13
第2章 大數據分析技術15
2.1 大數據分析流程及相關技術15
2.1.1 數據採集與預處理15
2.1.2 大數據存儲16
2.1.3 大數據分析與挖掘17
2.1.4 數據可視化18
2.2 大數據分析常用方法18
2.2.1 數理統計分析18
2.2.2 聚類分析18
2.2.3 分類分析19
2.2.4 回歸分析19
2.3 數據分析基礎工具19
2.3.1 數據採集工具—Selenium和
PhantomJS19
2.3.2 數據清洗工具—Kettle20
2.3.3 數據存儲工具—MongoDB和
MySQL21
2.3.4 機器學習工具—Scikit-learn23
2.3.5 數據可視化工具—Matplotlib、
PyEcharts、Superset23
本章小結25
本章練習26
第二篇 分佈式集群篇
第3章 Linux技術基礎28
3.1 用戶與組管理28
3.1.1 用戶管理相關命令28
3.1.2 組管理相關命令29
3.1.3 其他命令29
3.2 文件與目錄管理29
3.2.1 常用文件操作命令29
3.2.2 目錄操作命令31
3.2.3 改變文件或目錄訪問權限32
3.2.4 文件備份和壓縮33
3.3 進程管理與作業控制33
3.3.1 進程查看34
3.3.2 進程調度34
3.4 磁盤存儲管理34
3.4.1 磁盤管理命令35
3.4.2 存取命令35
3.5 系統管理與常用網絡命令35
3.5.1 系統管理35
3.5.2 常用網絡命令36
3.6 在線幫助系統36
3.7 實踐:Linux操作系統的
安裝與部署37
3.7.1 Linux的安裝和卸載37
3.7.2 局域網主機間遠程複製文件/
目錄38
3.7.3 XML文件介紹38
3.7.4 VMware安裝及CentOS系統
環境準備40
3.7.5 克隆虛擬機48
3.7.6 配置主機名50
3.7.7 配置網絡IP地址51
本章小結53
本章練習53
第4章 Hadoop技術基礎及構建
Hadoop集群55
4.1 Hadoop技術基礎55
4.1.1 Hadoop的組成55
4.1.2 Hadoop的運行模式62
4.1.3 HDFS文件的存取63
4.1.4 Hadoop集群的環境配置64
4.1.5 Hadoop集群的搭建65
4.1.6 啟動Hadoop集群69
4.2 ZooKeeper技術基礎及部署70
4.2.1 ZooKeeper簡介70
4.2.2 ZooKeeper的安裝部署73
4.2.3 Leader選舉機制75
4.2.4 ZooKeeper客戶端訪問集群
(命令行操作方式)82
4.3 HDFS與YARN高可用技術
基礎84
4.3.1 HDFS高可用的工作機制84
4.3.2 HDFS高可用配置85
4.3.3 YARN高可用的工作機制93
4.3.4 YARN高可用配置94
4.4 實踐:HDFS及MapReduce的
應用示例98
4.4.1 讀寫HDFS文件98
4.4.2 MapReduce操作 1:二次排序105
4.4.3 MapReduce操作 2:計數器110
4.4.4 MapReduce操作 3:Join操作113
本章小結119
本章練習119
第5章 Spark技術基礎及構建
Spark集群121
5.1 Spark核心機制121
5.1.1 Spark基本原理121
5.1.2 Spark系統架構122
5.1.3 Spark Shell操作123
5.2 Hive原理及實踐124
5.2.1 Hive定義124
5.2.2 Hive架構124
5.2.3 Hive表分類及查詢操作126
5.3 HBase原理及實踐130
5.3.1 HBase定義130
5.3.2 HBase集群架構130
5.3.3 HBase數據模型131
5.4 Kafka原理及實踐133
5.4.1 Kafka定義133
5.4.2 Kafka消息隊列133
5.4.3 Kafka基礎架構134
5.5 Flume原理及實踐135
5.5.1 Flume簡介135
5.5.2 Flume基礎架構135
5.6 實踐:搭建基於Spark的實時
大數據平臺137
5.6.1 Spark安裝部署137
5.6.2 MySQL安裝部署140
5.6.3 Hive安裝部署141
5.6.4 HBase安裝部署143
5.6.5 Kafka安裝部署147
5.6.6 Flume安裝部署149
5.6.7 Spark集群典型應用150
本章小結158
本章練習158
第三篇 平臺構建篇
第6章 構建基於Spark的實時交易
數據統計平臺161
6.1 系統需求與架構161
6.1.1 系統背景介紹161
6.1.2 系統功能需求162
6.1.3 系統架構設計162
6.2 Redis簡介163
6.2.1 Redis數據庫的作用163
6.2.2 Redis部署與啟動163
6.2.3 Redis常用命令165
6.3 系統開發流程166
6.4 數據獲取模塊實現174
6.4.1 模擬訂單數據174
6.4.2 向Kafka集群發送訂單數據175
6.5 數據分析與處理模塊實現178
6.5.1 分析訂單數據178
6.5.2 生成結果182
6.6 數據可視化模塊實現182
6.6.1 搭建Web開發環境183
6.6.2 實現數據展示功能185
6.6.3 可視化平臺展示192
本章小結192
本章練習192
第7章 構建基於Hadoop的離線
電商大數據分析平臺194
7.1 系統需求與架構194
7.1.1 系統背景介紹194
7.1.2 系統功能需求195
7.1.3 系統架構設計195
7.2 數據採集模塊實現196
7.2.1 商品信息爬取196
7.2.2 調試分析210
7.3 數據處理與存儲模塊實現211
7.3.1 信息分析與處理211
7.3.2 商品信息存儲220
7.3.3 調試分析222
7.4 數據可視化模塊實現222
7.4.1 使用Superset連接MySQL
數據庫223
7.4.2 調試分析223
本章小結226
本章練習227
參考文獻228
