Hadoop大數據分析技術
遲殿委 陳鵬程
買這商品的人也買了...
-
無線網路與行動計算, 2/e$550$495 -
邁向 Linux 工程師之路:Superuser 一定要懂的技術與運用, 2/e (How Linux Works: What Every Superuser Should Know, 2/e)$600$468 -
當代機率:理論與應用, 4/e (Ghahramani: Fundamentals of Probability With Stochastic Processes, 4/e)$780$741 -
基礎生物學, 9/e (Johnson)$810$770 -
深度學習 -- 從入門到實戰 (使用 MATLAB)(附範例光碟)$460$414 -
大數據時代超吸睛視覺化工具與技術:Tableau 資料分析師進階高手養成實戰經典$600$468 -
演算法-名校攻略秘笈, 10/e$400$380 -
STP 行銷策略之 Python 商業應用實戰|網路爬蟲 x 機器學習 x 數據分析$520$411 -
與熊共舞:軟體專案的風險管理 (經典紀念版)$480$379 -
公職考試講重點【資料結構】[適用三等、四等/高考、普考、地方特考]$500$475 -
Python 網路爬蟲:大數據擷取、清洗、儲存與分析 -- 王者歸來, 2/e$750$593 -
計算機組成原理:作業系統概論Ⅰ$560$370 -
銷售 AI 化!看資料科學家如何思考, 用 Python 打造能賺錢的機器學習模型$620$527 -
集成式學習:Python 實踐!整合全部技術,打造最強模型 (Hands-On Ensemble Learning with Python: Build highly optimized ensemble machine learning models using scikit-learn and Keras)$750$638 -
計算機組成原理:作業系統概論Ⅱ$600$396 -
公職考試 2022 試題大補帖【程式語言(含程式設計、程式語言概要、程式設計概要)】(103~110年試題)(申論題型)[適用三等、四等/高考、普考、地方特考、關務、鐵特、技師考試]$520$494 -
物聯網資訊安全實務入門$420$332 -
Python 資料科學實戰教本 - 爬蟲、清理、資料庫、視覺化、探索式分析、機器學習建模,數據工程一次搞定!$680$537 -
$305大數據採集與預處理技術 (HDFS + HBase + Hive + Python)(微課視頻版) -
Python 大數據特訓班:資料自動化收集、整理、清洗、儲存、分析與應用實戰, 3/e (附320分鐘影音/範例程式)$520$411 -
親密的駭人 – 堅固網路安全建設從內網開始$880$695 -
$469LangChain 入門指南:構建高可復用、可擴展的 LLM 應用程序 -
專業 SCRUM:基於 Azure DevOps 的敏捷實踐$774$735 -
喪屍 Scrum 生存指南:邁向真敏捷的復原之路 (Zombie Scrum Survival Guide: A Journey To Recovery)$650$429 -
$505數據治理實踐者手記
中文年末書展|繁簡參展書2書75折 詳見活動內容 »
-
75折
為你寫的 Vue Components:從原子到系統,一步步用設計思維打造面面俱到的元件實戰力 (iThome 鐵人賽系列書)$780$585 -
75折
BDD in Action, 2/e (中文版)$960$720 -
75折
看不見的戰場:社群、AI 與企業資安危機$750$563 -
79折
AI 精準提問 × 高效應用:DeepSeek、ChatGPT、Claude、Gemini、Copilot 一本搞定$390$308 -
7折
超實用!Word.Excel.PowerPoint 辦公室 Office 365 省時高手必備 50招, 4/e (暢銷回饋版)$420$294 -
75折
裂縫碎光:資安數位生存戰$550$412 -
85折
日本當代最強插畫 2025 : 150位當代最強畫師豪華作品集$640$544 -
79折
Google BI 解決方案:Looker Studio × AI 數據驅動行銷實作,完美整合 Google Analytics 4、Google Ads、ChatGPT、Gemini$630$498 -
79折
超有料 Plus!職場第一實用的 AI 工作術 - 用對 AI 工具、自動化 Agent, 讓生產力全面進化!$599$473 -
75折
從零開始學 Visual C# 2022 程式設計, 4/e (暢銷回饋版)$690$518 -
75折
Windows 11 制霸攻略:圖解 AI 與 Copilot 應用,輕鬆搞懂新手必學的 Windows 技巧$640$480 -
75折
精準駕馭 Word!論文寫作絕非難事 (好評回饋版)$480$360 -
Sam Yang 的插畫藝術:用 Procreate / PS 畫出最強男友視角 x 女孩美好日常$699$629 -
79折
AI 加持!Google Sheets 超級工作流$599$473 -
78折
想要 SSR? 快使用 Nuxt 吧!:Nuxt 讓 Vue.js 更好處理 SEO 搜尋引擎最佳化(iThome鐵人賽系列書)$780$608 -
75折
超實用!業務.總管.人資的辦公室 WORD 365 省時高手必備 50招 (第二版)$500$375 -
7折
Node-RED + YOLO + ESP32-CAM:AIoT 智慧物聯網與邊緣 AI 專題實戰$680$476 -
79折
「生成式⇄AI」:52 個零程式互動體驗,打造新世代人工智慧素養$599$473 -
7折
Windows APT Warfare:惡意程式前線戰術指南, 3/e$720$504 -
75折
我輩程式人:回顧從 Ada 到 AI 這條程式路,程式人如何改變世界的歷史與未來展望 (We, Programmers: A Chronicle of Coders from Ada to AI)$850$637 -
75折
不用自己寫!用 GitHub Copilot 搞定 LLM 應用開發$600$450 -
79折
Tensorflow 接班王者:Google JAX 深度學習又快又強大 (好評回饋版)$780$616 -
79折
GPT4 會你也會 - 共融機器人的多模態互動式情感分析 (好評回饋版)$700$553 -
79折
技術士技能檢定 電腦軟體應用丙級術科解題教本|Office 2021$460$363 -
75折
Notion 與 Notion AI 全能實戰手冊:生活、學習與職場的智慧策略 (暢銷回饋版)$560$420
相關主題
商品描述
目錄大綱
目 錄
第1章 Hadoop概述與大數據環境準備 1
1.1 大數據定義 2
1.2 Hadoop生態介紹 2
1.2.1 Hadoop簡介 2
1.2.2 Hadoop版本簡介 4
1.2.3 Hadoop生態系統和組件介紹 6
1.3 Hadoop 3新特性 7
1.4 虛擬機安裝 9
1.5 安裝Linux操作系統 10
1.6 SSH工具與使用 15
1.7 Linux統一設置 16
1.8 小結 18
第2章 Hadoop偽分佈式集群搭建 19
2.1 安裝獨立運行的Hadoop 19
2.2 Hadoop偽分佈式環境準備 22
2.3 Hadoop偽分佈式安裝 26
2.4 HDFS操作命令 31
2.5 Java項目訪問HDFS 33
2.5.1 創建Maven項目 34
2.5.2 HDFS操作示例 36
2.6 winutils 38
2.7 快速MapReduce程序示例 39
2.8 小結 42
第3章 HDFS分佈式存儲實戰 43
3.1 HDFS的體系結構 43
3.2 NameNode的工作 44
3.2.1 查看鏡像文件 45
3.2.2 查看日誌文件 46
3.2.3 日誌文件和鏡像文件的操作過程 47
3.3 SecondaryNameNode 49
3.4 DataNode 50
3.5 HDFS的命令 50
3.6 遠程過程調用 51
3.7 小結 53
第4章 MapReduce實戰 55
4.1 MapReduce的運算過程 55
4.2 WordCount示例 57
4.3 自定義Writable 60
4.4 Partitioner分區編程 64
4.5 自定義排序 66
4.6 Combiner編程 67
4.7 默認Mapper和默認Reducer 68
4.8 倒排索引 69
4.9 Shuffle 73
4.10 小結 77
第5章 ZooKeeper與高可用集群實戰 79
5.1 ZooKeeper簡介 79
5.1.1 Zxid 80
5.1.2 版本號 81
5.2 單一節點安裝ZooKeeper 82
5.3 基本客戶端命令 83
5.4 Java代碼操作ZooKeeper 86
5.5 ZooKeeper集群安裝 91
5.6 znode節點類型 92
5.7 觀察節點 93
5.8 配置Hadoop高可用集群 93
5.9 用Java代碼操作集群 102
5.10 小結 104
第6章 Hive數據倉庫實戰 105
6.1 Hive3的安裝配置 107
6.2 Hive的命令 110
6.3 Hive內部表 114
6.4 Hive外部表 116
6.5 Hive表分區 117
6.5.1 分區技術細節 117
6.5.2 分區示例 119
6.6 查詢示例匯總 121
6.7 Hive函數 122
6.8 Hive自定義函數 128
6.9 Hive視圖 132
6.10 hiveserver2 132
6.11 使用JDBC連接hiveserver2 134
6.12 小結 135
第7章 HBase數據庫實戰 136
7.1 HBase的特點 136
7.2 HBase安裝 139
7.2.1 HBase的單節點安裝 140
7.2.2 HBase的偽分佈式安裝 142
7.2.3 Java客戶端代碼 144
7.3 HBase集群安裝 150
7.4 HBase Shell操作 153
7.4.1 數據模型定義 154
7.4.2 數據基本操作 156
7.5 協處理器 160
7.6 Phoenix 162
7.7 小結 168
第8章 Flume數據採集實戰 169
8.1 Flume的安裝與配置 170
8.2 快速示例 171
8.3 在ZooKeeper中保存Flume的配置文件 172
8.4 Flume的更多Source 176
8.4.1 Avro Source 176
8.4.2 Thrift Source和Thrift Sink 180
8.4.3 Exec Source 183
8.4.4 Spool Source 184
8.4.5 HDFS Sinks 184
8.5 小結 185
第9章 Kafka實戰 186
9.1 Kafka的特點 187
9.2 Kafka術語 188
9.3 Kafka安裝與部署 189
9.3.1 單機部署 189
9.3.2 集群部署 195
9.4 小結 198
第10章 影評大數據分析項目實戰 199
10.1 項目介紹 199
10.2 項目需求分析 199
10.3 項目詳細實現 203
10.3.1 搭建項目環境 203
10.3.2 編寫爬蟲類 206
10.3.3 編寫分詞類 207
10.3.4 第一個job的Map階段實現 210
10.3.5 第一個job的Reducer階段實現 210
10.3.6 第二個job的Map階段實現 211
10.3.7 第二個job的自定義排序類階段的實現 211
10.3.8 第二個job的自定義分區階段實現 212
10.3.9 第二個job的Reduce階段實現 212
10.3.10 Run程序主類實現 213
10.3.11 編寫詞雲類 214
10.3.12 效果測試 215
第11章 旅遊酒店評價大數據分析項目實戰 216
11.1 項目介紹 216
11.2 項目需求分析 217
11.2.1 數據集需求 217
11.2.2 功能需求 217
11.3 項目詳細實現 218
11.3.1 數據集上傳到HDFS 219
11.3.2 Hadoop數據清洗 221
11.3.3 構建Hive數據倉庫表 225
11.3.4 Sqoop數據導入與導出 230
11.3.5 數據可視化開發 232



