Hadoop 理論與實踐
北京百裡半網絡技術有限公司、李平
買這商品的人也買了...
-
Big Data:大數據的概念與演算法$520$468 -
雲端 & 區塊鏈必備技能 Hadoop 大數據高效處理實戰範典 (舊名: 科技巨頭:Hadoop+Spark大規模實際運作進行式)$540$459 -
史上最完整細節:Kubernetes 超應用全書$980$774 -
$500思科軟件定義訪問 -- 實現基於業務意圖的園區網絡 -
$407幾張圖教你看懂 RPA AI & RPA : 人工智能與機器人流程自動化的完美結合 -
$352Power Query 數據清洗實戰 -
高效能 Python 程式設計, 2/e (High Performance Python: Practical Performant Programming for Humans, 2/e)$780$616 -
頂級網站技術長高度:前端工程進階大師指南$880$695 -
超前部署企業雲 非懂不可 -- 最強圖解虛擬化,openstack 企業雲一日即成$680$578 -
資料密集型應用系統設計 (Designing Data-Intensive Applications: The Big Ideas Behind Reliable, Scalable, and Maintainable Systems)$980$774 -
資料科學的建模基礎 : 別急著 coding!你知道模型的陷阱嗎?$599$539 -
Mastering Active Directory, 3/e (Paperback)$2,160$2,052 -
$588HYDRA 製造執行系統指南 — 完美的 MES 解決方案 -
$505現代 CPU 性能分析與優化 -
$356TCP 是怎樣工作的 -
CYBERSEC 2023 臺灣資安年鑑 ─ X Defense 全面守禦 寸土不讓$179$161 -
AI 時代從基本功下手 - 深入電腦底層運作原理$880$695 -
乾脆一次搞清楚:最完整詳細網路協定全書, 2/e$780$616 -
CYBERSEC 2024 臺灣資安年鑑 ─ AI 資安 2024 徹底剖析生成式 AI 資安攻防態勢$179$161 -
$505紅隊實戰寶典之內網滲透測試 -
LLM 的大開源時代 - Llama 模型精讀實戰$650$514 -
讓 AI 好好說話!從頭打造 LLM (大型語言模型) 實戰秘笈$680$537 -
CYBERSEC 2025 臺灣資安年鑑─全球地緣政治衝突激化,國家級駭客鎖定企業$179$161 -
資訊安全管理領導力實戰手冊$599$509 -
網路可程式性與自動化 |新世代網路工程師必備技能, 2/e (Network Programmability and Automation: Skills for the Next-Generation Network Engineer, 2/e)$1,380$1,090
中文年末書展|繁簡參展書2書75折 詳見活動內容 »
-
75折
為你寫的 Vue Components:從原子到系統,一步步用設計思維打造面面俱到的元件實戰力 (iThome 鐵人賽系列書)$780$585 -
75折
BDD in Action, 2/e (中文版)$960$720 -
75折
看不見的戰場:社群、AI 與企業資安危機$750$563 -
79折
AI 精準提問 × 高效應用:DeepSeek、ChatGPT、Claude、Gemini、Copilot 一本搞定$390$308 -
7折
超實用!Word.Excel.PowerPoint 辦公室 Office 365 省時高手必備 50招, 4/e (暢銷回饋版)$420$294 -
75折
裂縫碎光:資安數位生存戰$550$412 -
日本當代最強插畫 2025 : 150位當代最強畫師豪華作品集$640$576 -
79折
Google BI 解決方案:Looker Studio × AI 數據驅動行銷實作,完美整合 Google Analytics 4、Google Ads、ChatGPT、Gemini$630$498 -
79折
超有料 Plus!職場第一實用的 AI 工作術 - 用對 AI 工具、自動化 Agent, 讓生產力全面進化!$599$473 -
75折
從零開始學 Visual C# 2022 程式設計, 4/e (暢銷回饋版)$690$518 -
75折
Windows 11 制霸攻略:圖解 AI 與 Copilot 應用,輕鬆搞懂新手必學的 Windows 技巧$640$480 -
75折
精準駕馭 Word!論文寫作絕非難事 (好評回饋版)$480$360 -
Sam Yang 的插畫藝術:用 Procreate / PS 畫出最強男友視角 x 女孩美好日常$699$629 -
79折
AI 加持!Google Sheets 超級工作流$599$473 -
78折
想要 SSR? 快使用 Nuxt 吧!:Nuxt 讓 Vue.js 更好處理 SEO 搜尋引擎最佳化(iThome鐵人賽系列書)$780$608 -
78折
超實用!業務.總管.人資的辦公室 WORD 365 省時高手必備 50招 (第二版)$500$390 -
7折
Node-RED + YOLO + ESP32-CAM:AIoT 智慧物聯網與邊緣 AI 專題實戰$680$476 -
79折
「生成式⇄AI」:52 個零程式互動體驗,打造新世代人工智慧素養$599$473 -
7折
Windows APT Warfare:惡意程式前線戰術指南, 3/e$720$504 -
75折
我輩程式人:回顧從 Ada 到 AI 這條程式路,程式人如何改變世界的歷史與未來展望 (We, Programmers: A Chronicle of Coders from Ada to AI)$850$637 -
75折
不用自己寫!用 GitHub Copilot 搞定 LLM 應用開發$600$450 -
79折
Tensorflow 接班王者:Google JAX 深度學習又快又強大 (好評回饋版)$780$616 -
79折
GPT4 會你也會 - 共融機器人的多模態互動式情感分析 (好評回饋版)$700$553 -
79折
技術士技能檢定 電腦軟體應用丙級術科解題教本|Office 2021$460$363 -
75折
Notion 與 Notion AI 全能實戰手冊:生活、學習與職場的智慧策略 (暢銷回饋版)$560$420
相關主題
商品描述
《Hadoop理論與實踐》按照高等學校大數據、人工智能課程基本要求,以案例驅動的形式來組織內容,突出該課程的實踐性特點。
《Hadoop理論與實踐》主要包含四大部分:Hadoop技術、數據倉庫與Hive、Flume分佈式日誌處理系統、Spark及其生態圈概述。
其中,Hadoop技術包括大數據與數據分析、Hadoop生態系統介紹、Hadoop存儲、Hadoop計算之MapReduce、Hadoop安全等;
數據倉庫與Hive包括Hive與數據庫的基礎知識、Hive的高級特性、Hive優化及案例的應用;
Flume分佈式日誌處理系統包括Flume介紹、Flume使用案例及Flume開發案例的應用;
Spark及其生態圈概述包括Spark簡介及Spark生態系統詳解。
《Hadoop理論與實踐》內容安排合理,層次清晰,通俗易懂,實例豐富,突出理論與實踐的結合,
可作為各類高等院校人工智能與大數據相關專業的教材,也可供廣大程序設計人員參考。
作者簡介
北京百裡半網絡技術有限公司,武漢厚溥企業集團成員單位,致力於因特網相關信息技術產品和服務的研究與開發,以及在線教育行業產品、服務的集成運營。公司擁有雄厚的具備學術、教育及產業背景的研發團隊。
公司為政府、高校、企業等提供極具競爭力的產品服務。在人工智能、大數據及IT運維、因特網用戶行為分析、在線教育等領域推出了自有知識產權的獨特而領先的產品,為公司的持續發展奠定了堅實的基礎。
北京百裡半網絡技術有限公司長期以來堅持並弘揚“以人為本,本在心;以厚為道,道在行。創造機遇,成就潛能。IT成就**潛能”的企業文化,努力成為值得客戶信賴的、具有獨特價值的優秀企業,並使之基業長青。
李平,男,1981年出生,工學博士,任教於黃岡師範學院數學與統計學院。主要研究方向為大數據技術與應用、數學建模等,有豐富的高校教學經驗與企業實踐經歷,發表科研論文十餘篇,主持參與省部級科研項目三項,多次指導本專科學生及研究生參加數據挖掘競賽、數學建模競賽並獲得獎項。
目錄大綱
目 錄
第1章 大數據概述 1
1.1 大數據與數據分析 2
1.1.1 Hadoop的基礎組件 2
1.1.2 Hadoop分佈式文件系統 3
1.1.3 MapReduce 3
1.1.4 YARN 4
1.2 ZooKeeper 5
1.3 Hive 6
1.4 與其他系統集成 7
1.4.1 Hadoop生態系統 7
1.4.2 數據集成與Hadoop 8
1.4.3 Hadoop商用平臺CDH 9
第2章 Hadoop存儲 13
2.1 HDFS的基礎知識 14
2.1.1 HDFS概念 14
2.1.2 架構 18
2.1.3 接口 21
2.2 在分佈式模式下設置HDFS集群 26
2.3 HDFS的高級特性 30
2.3.1 快照 30
2.3.2 離線查看器 33
2.3.3 分層存儲 39
2.4 文件格式 42
2.5 雲存儲 43
第3章 數據倉庫和Hive 45
3.1 數據倉庫和Hive簡介 45
3.1.1 數據倉庫簡介 45
3.1.2 數據倉庫與數據庫的區別 46
3.1.3 Hive簡介 46
3.1.4 查看CDH中Hive版本 47
3.2 Hive與數據庫 48
3.2.1 Hive與RDBMS 48
3.2.2 HiveQL與SQL 50
3.3 Hive的高級特性 51
3.3.1 Hive的優缺點和適用場景 52
3.3.2 Hive進程介紹 52
3.3.3 Hive訪問方式 53
3.3.4 Hive體系結構 53
3.3.5 Hive Metastore 55
3.3.6 Hive數據類型 56
3.3.7 Hive的常用參數配置 57
3.3.8 Hive的數據模型 58
3.3.9 Hive函數 62
3.4 案例演示 66
3.4.1 準備數據 67
3.4.2 修改和查詢 71
3.4.3 表連接 72
3.4.4 創建視圖 74
3.4.5 創建索引 75
3.4.6 JDBC開發 76
3.4.7 UDF的開發 84
3.4.8 UDAF 86
3.5 Hive優化和Hive中的鎖 87
3.5.1 註意事項 87
3.5.2 Hive鎖 88
3.6 問題匯總 89
第4章 Hadoop計算 91
4.1 Hadoop MapReduce的基礎 91
4.1.1 概念 92
4.1.2 架構 94
4.2 啟動MapReduce作業 99
4.2.1 編寫map任務 100
4.2.2 編寫reduce任務 102
4.2.3 編寫MapReduce作業 103
4.2.4 MapReduce配置 105
4.3 MapReduce的高級特性 106
4.3.1 分佈式緩存 106
4.3.2 計數器 108
4.3.3 作業歷史服務器 109
第5章 Hadoop安全 113
5.1 提升Hadoop集群安全性 114
5.1.1 邊界安全 114
5.1.2 Kerberos認證 115
5.1.3 Hadoop中的服務級授權 120
5.2 提升數據安全性 124
5.2.1 數據分類 125
5.2.2 將數據傳到集群 125
5.2.3 保護集群中的數據 130
5.3 增強應用程序安全性 134
5.3.1 YARN 架構 134
5.3.2 YARN中的應用提交 135
第6章 Flume分佈式日誌處理系統 139
6.1 Flume介紹 139
6.1.1 Flume簡介 140
6.1.2 Flume原理 141
6.1.3 Flume特點 143
6.1.4 Flume結構 143
6.1.5 Flume使用 156
6.2 Flume使用案例 159
6.2.1 Flume監聽埠示例 159
6.2.2 兩個主機組成的Flume集群示例 162
6.2.3 HDFS Sink使用示例 164
6.2.4 扇出示例 167
6.2.5 負載均衡(Sink組)示例 169
6.3 Flume開發案例 178
6.3.1 開發自定義的Sink 178
6.3.2 Flume結合Kafka的使用 183
第7章 Spark及其生態圈概述 203
7.1 Spark 簡介 203
7.1.1 什麼是Spark 203
7.1.2 Spark與MapReduce比較 206
7.1.3 Spark的演進路線圖 206
7.2 Spark生態系統 207
7.2.1 Spark Core 208
7.2.2 Spark Streaming 209
7.2.3 Spark SQL 211
7.2.4 BlinkDB 213
7.2.5 MLBase/MLIib 213
7.2.6 GraphX 214
7.2.7 SparkR 215
7.2.8 Alluxio 216
7.3 小結 217


