基於Hadoop的大數據分析和處理 基于Hadoop的大数据分析和处理

魏祖寬

立即出貨

買這商品的人也買了...

相關主題

商品描述

本書基於雲計算和大數據,介紹大數據處理和分析的技術,分為兩部分。第一部分介紹Hadoop基礎知識,內容包括:Hadoop的介紹和集群構建、Hadoop的分部式系統架構、MapReduce及其應用、Hadoop的版本特徵及進化。第二部分以雲計算為主題,詳細論述利用Hadoop的大數據分析和處理工具,以及NoSQL技術,內容包括:雲計算和Hadoop、Amazon服務中的MapReduce應用、Hadoop應用下的大數據分析、NoSQL、HBase。本書不單純地講述理論和概念,而是基於目具體的工具和技術(Hadoop和NoSQL),利用大量實際案例,通過實際的操作和應用來組織大數據處理和分析技術,有利於讀者從工程應用的角度進行實際掌握和利用。適合相關專業的本科生、研究生和軟件工程師學習。

作者簡介

魏祖寬,男,電子科技大學教授,博士,韓國科技協會、中國計算機學會、日本電子電器協會會員。承擔計算機以及軟件學院的本科和研究生的數據庫課程教學和實驗教學,及雲計算和大數據方面的新課。主持數據庫應用、GIS應用等方面的應用課題10多項(國家自然基金委,省/市級科技局等科研項目,以及企業橫向項目),現專注於雲存儲方面的應用科研項目。

目錄大綱


第1章Hadoop的介紹和集群構建2 

1.1 Hadoop介紹2 
1.1.1雲計算和Hadoop 2 
1.1.2 Hadoop的歷史4 
1.2 Hadoop構建案例6 
1.2.1歐美構建案例6 
1.2.2韓國構建案例7 
1.3構建Hadoop集群8 
1.3.1分佈式文件系統8 
1.3.2構建Hadoop集群的準備事項12 
1.3.3構建偽分佈式17 
1.3.4分佈式集群(Cluster)構建29 
1.4 Hadoop界面36 
1.4.1 Hadoop分佈式文件系統指令界面36 
1.5總結40 

第2章Hadoop分佈式處理文件系統41
 
2.1 Hadoop分佈式文件系統的設計42 
2.2概觀Hadoop分佈式文件系統的整體構造43 
2.3 Namenode的角色44 
2.3.1元數據管理44 
2.3.2元數據的安全保管——Edits和Fslmage文件及Secondary Namenode 49 
2.3.3 Datanode管理52 
2.4 Datanode的角色59 
2.4.1 block管理59 
2.4.2數據的複制和過程61 
2.4.3 Datanode添加63 
2.5總結65 

第3章大數據和MapReduce 67 

3.1大數據的概要68 
3.1.1大數據的概念69 
3.1.2大數據的價值創造69 
3.2 MapReduce 71 
3.2.1 MapReduce示例:頻統計(Word Count) 71 
3.2.2 MapReduce開源代碼:詞頻統計(Word Count)——Java基礎75 
3.2.3 MapReduce開源代碼:詞頻統計(Word Count)——Ruby語言基礎76 
3.3 MapReduce的結構78 
3.3 .1通過案例了解MapReduce結構79 
3.3.2從結構性角度進行的MapReduce最優化方案81 
3.4 MapReduce的容錯性(Fault Tolerance) 85 
3.5 MapReduce的編程86 
3.5.1搜索86 
3.5.2排序87 
3.5.3倒排索引87 
3.5.4查找熱門詞88 
3.5.5合算數字89 
3.6構建Hadoop:通過MapReduce的案例介紹90 
3.6.1單詞頻率統計MapReduce的編程91 
3.6.2 MapReduce—用戶界面95 
3.7總結99 

第4章Hadoop版本特徵及進化101 

4.1 Hadoop 0.1x版本的API 103 
4.2 Hadoop附加功能(append) 107 
4.3 Hadoop安全相關功能109 
4.4 Hadoop 2.0.0 alpha 111 
4.4.1安裝Hadoop 2.0.0 112 
4.4.2 Hadoop分佈式文件系統的更改120 
4.4.3跨時代MapReduce框架:YARN 128 
4.5總結135 

第5章云計算和Hadoop 137 

5.1大規模Hadoop集群的構建和案 138 
5.2雲基礎設施服務的登場139 
5.2.1 Amazon雲服務141 
5.3在Amazon EC2中構建Hadoop集群156 
5.3.1 Apache Whirr 156 
5.3.2構建Hadoop集群157 
5.4總結160 

第6章Amazon Elastic MapReduce的倍增利用161 

6.1 Amazon EMR的活用162 
6.1.1 Amazon EMR的概念162 
6.1.2 Amazon EMR的構造162 
6.1.3 Amazon EMR的特徵163 
6.1.4 Amazon EMR的Job Flow和Step 164 
6.1.5使用Amazon EMR前需要了解的事項165 
6.1.6 Amazon EMR的實戰運用170 
6.2總結178 

第7章Hadoop應用下的大數據分析179 

7.1 Hadoop應用下的機器學習(Mahout) 180 
7.1.1設置及編譯181 
7.1.2 K- means聚類算法183 
7.1.3基於矢量相似度的協同過濾188 
7.1.4小結194 
7.2基於Hadoop的統計分析Rhive(R and Hive) 195 
7.2.1 R的設置及靈活運用195 
7.2.2 Hive的設置及靈活運用198 
7.2.3 RHive的設置及靈活運用201 
7.2.4小結207 
7.3利用Hadoop的圖形數據處理Giraph 207 
7.4總結216 

第8章數據中的DBMS,NoSQL 217 

8.1 NoSQL出現背景:大 據和Web 2.0 218 
8.1.1基於Web 2.0的大數據的登場218 
8.1.2基於大數據的NoSQL的登場221 
8.1.3適合大數據和Web 2.0的數據庫NoSQL 222 
8.2 NoSQL的定義和類別特徵226 
8.3 NoSQL數據模型概要和分類229 
8.4 NoSQL數據模型化231 
8.4.1 NoSQL數據模型化基本概念232 
8.4.2一般的NoSQL建模方法234 
8.5主要NoSQL的比較和選擇239 
8.6總結241 

第9章Hbase:Hadoop中的NoSQL 243 

9.1 Hadoop生態界中的HBase 244 
9.2 HBase介紹248 
9.3 HBase數據模型250 
9.3.1 map 250 
9.3.2持續性(persistent) 250 
9.3.3分佈性(distributed) 250 
9.3.4排序性( sorted) 250 
9.3.5多維性(multidimensional) 251 
9.3.6稀疏性(sparse) 254 
9.4 HBase的數據庫模式255 
9.5 HBase構造259 
9.6 HBase的構建及運行261 
9.7 HBase的擴展——DuoBase中的HBase 264 
9.8 HBase的用戶定義索引266 
9.8.1 HBase用戶定義索引—HFile格式的擴展267 
9.8.2 HBase用戶定義索引—Region的擴展267 
9.9總結270