基於Hadoop的大數據分析和處理 基于Hadoop的大数据分析和处理
魏祖寬
- 出版商: 電子工業
- 出版日期: 2017-06-01
- 定價: $270
- 售價: 7.9 折 $213
- 語言: 簡體中文
- 頁數: 268
- 裝訂: 平裝
- ISBN: 7121317397
- ISBN-13: 9787121317392
-
相關分類:
Hadoop、大數據 Big-data、NoSQL
立即出貨 (庫存 < 4)
買這商品的人也買了...
-
Effective C++, 3/e (中文版) (Effective C++: 55 Specific Ways to Improve Your Programs and Designs, 3/e)$500$450 -
Kent Beck 的實作模式 (Implementation Patterns)$320$250 -
資料探勘 (Han: Data Mining: Concepts and Techniques, 3/e )$620$589 -
ASP.NET MVC 5 網站開發美學$780$616 -
Node.js 實戰手冊 (Node.js in Action)$520$411 -
Linux 設備驅動開發詳解 : 基於最新的 Linux4.0 內核$534$507 -
完整學會 Git, GitHub, Git Server 的24堂課$360$284 -
$1,014編譯系統透視:圖解編譯原理 -
React Native 學習手冊 (Learning React Native: Building Native Mobile Apps with JavaScript)$580$458 -
超圖解物聯網 IoT 實作入門 - 使用 JavaScript/Node.JS/Arduino/Raspberry$699$594 -
大數據分析 Excel Power BI 全方位應用$500$395 -
SQL Server 2016 資料庫設計與開發實務 (附T-SQL範例檔、資料庫檔光碟)$600$474 -
$414區塊鏈技術指南 -
PHP 學習手冊 (Learning PHP: A Pain-Free Introduction to Building Interactive Websites)$580$458 -
Node.js 設計模式 (Node.js Design Patterns)
$590$460 -
通往高級駭客的修行之路 : 反逆向工程的武功絕技$520$406 -
人工智慧來了$500$425 -
Excel 樞鈕分析和商業邏輯:Power Pivot & Power BI, 2/e (Power Pivot and Power BI: The Excel User's Guide to DAX, Power Query, Power BI & Power Pivot in Excel 2010-2016, 2/e)$500$390 -
寫程式前就該懂的演算法 ─ 資料分析與程式設計人員必學的邏輯思考術 (Grokking Algorithms: An illustrated guide for programmers and other curious people)$390$308 -
Python 初學特訓班 (增訂版) (附250分鐘影音教學/範例程式)$480$379 -
$474Python 爬蟲開發與項目實戰 -
Deep Learning|用 Python 進行深度學習的基礎理論實作$580$458 -
大數據時代一定要會的自動化資料搜集術$480$408 -
SQL Server 與 R 開發實戰講堂$680$578 -
單元測試的藝術, 2/e (The Art of Unit Testing: with examples in C#, 2/e)$650$507
中文年末書展|繁簡參展書2書75折 詳見活動內容 »
-
75折
為你寫的 Vue Components:從原子到系統,一步步用設計思維打造面面俱到的元件實戰力 (iThome 鐵人賽系列書)$780$585 -
75折
BDD in Action, 2/e (中文版)$960$720 -
75折
看不見的戰場:社群、AI 與企業資安危機$750$563 -
79折
AI 精準提問 × 高效應用:DeepSeek、ChatGPT、Claude、Gemini、Copilot 一本搞定$390$308 -
7折
超實用!Word.Excel.PowerPoint 辦公室 Office 365 省時高手必備 50招, 4/e (暢銷回饋版)$420$294 -
75折
裂縫碎光:資安數位生存戰$550$412 -
日本當代最強插畫 2025 : 150位當代最強畫師豪華作品集$640$576 -
79折
Google BI 解決方案:Looker Studio × AI 數據驅動行銷實作,完美整合 Google Analytics 4、Google Ads、ChatGPT、Gemini$630$498 -
79折
超有料 Plus!職場第一實用的 AI 工作術 - 用對 AI 工具、自動化 Agent, 讓生產力全面進化!$599$473 -
75折
從零開始學 Visual C# 2022 程式設計, 4/e (暢銷回饋版)$690$518 -
75折
Windows 11 制霸攻略:圖解 AI 與 Copilot 應用,輕鬆搞懂新手必學的 Windows 技巧$640$480 -
75折
精準駕馭 Word!論文寫作絕非難事 (好評回饋版)$480$360 -
Sam Yang 的插畫藝術:用 Procreate / PS 畫出最強男友視角 x 女孩美好日常$699$629 -
79折
AI 加持!Google Sheets 超級工作流$599$473 -
78折
想要 SSR? 快使用 Nuxt 吧!:Nuxt 讓 Vue.js 更好處理 SEO 搜尋引擎最佳化(iThome鐵人賽系列書)$780$608 -
78折
超實用!業務.總管.人資的辦公室 WORD 365 省時高手必備 50招 (第二版)$500$390 -
7折
Node-RED + YOLO + ESP32-CAM:AIoT 智慧物聯網與邊緣 AI 專題實戰$680$476 -
79折
「生成式⇄AI」:52 個零程式互動體驗,打造新世代人工智慧素養$599$473 -
7折
Windows APT Warfare:惡意程式前線戰術指南, 3/e$720$504 -
75折
我輩程式人:回顧從 Ada 到 AI 這條程式路,程式人如何改變世界的歷史與未來展望 (We, Programmers: A Chronicle of Coders from Ada to AI)$850$637 -
75折
不用自己寫!用 GitHub Copilot 搞定 LLM 應用開發$600$450 -
79折
Tensorflow 接班王者:Google JAX 深度學習又快又強大 (好評回饋版)$780$616 -
79折
GPT4 會你也會 - 共融機器人的多模態互動式情感分析 (好評回饋版)$700$553 -
79折
技術士技能檢定 電腦軟體應用丙級術科解題教本|Office 2021$460$363 -
75折
Notion 與 Notion AI 全能實戰手冊:生活、學習與職場的智慧策略 (暢銷回饋版)$560$420
相關主題
商品描述
本書基於雲計算和大數據,介紹大數據處理和分析的技術,分為兩部分。第一部分介紹Hadoop基礎知識,內容包括:Hadoop的介紹和集群構建、Hadoop的分部式系統架構、MapReduce及其應用、Hadoop的版本特徵及進化。第二部分以雲計算為主題,詳細論述利用Hadoop的大數據分析和處理工具,以及NoSQL技術,內容包括:雲計算和Hadoop、Amazon服務中的MapReduce應用、Hadoop應用下的大數據分析、NoSQL、HBase。本書不單純地講述理論和概念,而是基於目具體的工具和技術(Hadoop和NoSQL),利用大量實際案例,通過實際的操作和應用來組織大數據處理和分析技術,有利於讀者從工程應用的角度進行實際掌握和利用。適合相關專業的本科生、研究生和軟件工程師學習。
作者簡介
魏祖寬,男,電子科技大學教授,博士,韓國科技協會、中國計算機學會、日本電子電器協會會員。承擔計算機以及軟件學院的本科和研究生的數據庫課程教學和實驗教學,及雲計算和大數據方面的新課。主持數據庫應用、GIS應用等方面的應用課題10多項(國家自然基金委,省/市級科技局等科研項目,以及企業橫向項目),現專註於雲存儲方面的應用科研項目。
目錄大綱
第1章Hadoop的介紹和集群構建2
1.1 Hadoop介紹2
1.1.1雲計算和Hadoop 2
1.1.2 Hadoop的歷史4
1.2 Hadoop構建案例6
1.2.1歐美構建案例6
1.2.2韓國構建案例7
1.3構建Hadoop集群8
1.3.1分佈式文件系統8
1.3.2構建Hadoop集群的準備事項12
1.3.3構建偽分佈式17
1.3.4分佈式集群(Cluster)構建29
1.4 Hadoop界面36
1.4.1 Hadoop分佈式文件系統指令界面36
1.5總結40
第2章Hadoop分佈式處理文件系統41
2.1 Hadoop分佈式文件系統的設計42
2.2概觀Hadoop分佈式文件系統的整體構造43
2.3 Namenode的角色44
2.3.1元數據管理44
2.3.2元數據的安全保管——Edits和Fslmage文件及Secondary Namenode 49
2.3.3 Datanode管理52
2.4 Datanode的角色59
2.4.1 block管理59
2.4.2數據的複制和過程61
2.4.3 Datanode添加63
2.5總結65
第3章大數據和MapReduce 67
3.1大數據的概要68
3.1.1大數據的概念69
3.1.2大數據的價值創造69
3.2 MapReduce 71
3.2.1 MapReduce示例:頻統計(Word Count) 71
3.2.2 MapReduce開源代碼:詞頻統計(Word Count)——Java基礎75
3.2.3 MapReduce開源代碼:詞頻統計(Word Count)——Ruby語言基礎76
3.3 MapReduce的結構78
3.3 .1通過案例瞭解MapReduce結構79
3.3.2從結構性角度進行的MapReduce最優化方案81
3.4 MapReduce的容錯性(Fault Tolerance) 85
3.5 MapReduce的編程86
3.5.1搜索86
3.5.2排序87
3.5.3倒排索引87
3.5.4查找熱門詞88
3.5.5合算數字89
3.6構建Hadoop:通過MapReduce的案例介紹90
3.6.1單詞頻率統計MapReduce的編程91
3.6.2 MapReduce—用戶界面95
3.7總結99
第4章Hadoop版本特徵及進化101
4.1 Hadoop 0.1x版本的API 103
4.2 Hadoop附加功能(append) 107
4.3 Hadoop安全相關功能109
4.4 Hadoop 2.0.0 alpha 111
4.4.1安裝Hadoop 2.0.0 112
4.4.2 Hadoop分佈式文件系統的更改120
4.4.3跨時代MapReduce框架:YARN 128
4.5總結135
第5章雲計算和Hadoop 137
5.1大規模Hadoop集群的構建和案 138
5.2雲基礎設施服務的登場139
5.2.1 Amazon雲服務141
5.3在Amazon EC2中構建Hadoop集群156
5.3.1 Apache Whirr 156
5.3.2構建Hadoop集群157
5.4總結160
第6章Amazon Elastic MapReduce的倍增利用161
6.1 Amazon EMR的活用162
6.1.1 Amazon EMR的概念162
6.1.2 Amazon EMR的構造162
6.1.3 Amazon EMR的特徵163
6.1.4 Amazon EMR的Job Flow和Step 164
6.1.5使用Amazon EMR前需要瞭解的事項165
6.1.6 Amazon EMR的實戰運用170
6.2總結178
第7章Hadoop應用下的大數據分析179
7.1 Hadoop應用下的機器學習(Mahout) 180
7.1.1設置及編譯181
7.1.2 K- means聚類算法183
7.1.3基於矢量相似度的協同過濾188
7.1.4小結194
7.2基於Hadoop的統計分析Rhive(R and Hive) 195
7.2.1 R的設置及靈活運用195
7.2.2 Hive的設置及靈活運用198
7.2.3 RHive的設置及靈活運用201
7.2.4小結207
7.3利用Hadoop的圖形數據處理Giraph 207
7.4總結216
第8章數據中的DBMS,NoSQL 217
8.1 NoSQL出現背景:大 據和Web 2.0 218
8.1.1基於Web 2.0的大數據的登場218
8.1.2基於大數據的NoSQL的登場221
8.1.3適合大數據和Web 2.0的數據庫NoSQL 222
8.2 NoSQL的定義和類別特徵226
8.3 NoSQL數據模型概要和分類229
8.4 NoSQL數據模型化231
8.4.1 NoSQL數據模型化基本概念232
8.4.2一般的NoSQL建模方法234
8.5主要NoSQL的比較和選擇239
8.6總結241
第9章Hbase:Hadoop中的NoSQL 243
9.1 Hadoop生態界中的HBase 244
9.2 HBase介紹248
9.3 HBase數據模型250
9.3.1 map 250
9.3.2持續性(persistent) 250
9.3.3分佈性(distributed) 250
9.3.4排序性( sorted) 250
9.3.5多維性(multidimensional) 251
9.3.6稀疏性(sparse) 254
9.4 HBase的數據庫模式255
9.5 HBase構造259
9.6 HBase的構建及運行261
9.7 HBase的擴展——DuoBase中的HBase 264
9.8 HBase的用戶定義索引266
9.8.1 HBase用戶定義索引—HFile格式的擴展267
9.8.2 HBase用戶定義索引—Region的擴展267
9.9總結270
