深入理解Hadoop(原書第2版) 深入理解Hadoop(原书第2版)

薩米爾·瓦德卡 (Sameer Wadkar), 馬杜·西德林埃 (Madhu Siddalingaiah), 傑森·文納 (Jason Venner)

  • 出版商: 機械工業
  • 出版日期: 2016-01-01
  • 定價: $474
  • 售價: 8.5$403
  • 語言: 簡體中文
  • 頁數: 384
  • 裝訂: 平裝
  • ISBN: 711151565X
  • ISBN-13: 9787111515654
  • 相關分類: Hadoop
  • 此書翻譯自: Pro Apache Hadoop, 2/e (Paperback)
  • 下單後立即進貨 (約4週~6週)

買這商品的人也買了...

商品描述

<內容簡介>
   
本書作者基於對Hadoop系統的實踐,深入淺出地對Hadoop進行了詳細的講解,包含大量的實例和技巧,可幫助有一定基礎的開發者快速掌握分佈式系統。主要內容包括:第1章~第4章講解大數據系統的基本概念、Hadoop系統的關鍵概念,以及進行Hadoop平臺管理的關鍵概念要素。第5章~第7章是本書的重點,深入分析了MapReduce框架,不僅包括MapReduce框架的API,還介紹MapReduce框架的更複雜概念及其設計理念。第8章~第14章介紹Hadoop生態系統,包括支持MapReduce程序的單元測試和集成測試框架、Hadoop系統的監控和日誌系統、Hive框架、Pig和Crunch框架、HCatalog框架、Hadoop日誌流處理、HBase等。第15章~第17章介紹了數據科學基本概念及應用、雲計算實例、分佈式下載服務實例等。


<作者簡介>

薩米爾·瓦德卡(Sameer Wadkar)
在軟件架構與開發領域有超過16年的工作經驗,從2011年開始他積極地參與了Hadoop/HBase的開發實現,也是開源軟件的貢獻者。
馬杜·西德林埃(Madhu
Siddalingaiah)
是一名擁有25年工作經驗的技術顧問,近幾年,他專註於電子工程、因特網技術、大數據領域。最近,他發布了幾個著名的大數據系統及其解決方案。
傑森·文納(Jason
Venner)
有20多年的軟件開發經驗,涉及軟件工程、數據挖掘、架構設計等領域,近些年來關註Java、Hadoop和雲計算等領域。

<譯者簡介>

於博優酷馬鈴薯集團大數據團隊數據平臺架構師。曾任百度集團商務搜索部高級開發工程師、搜狐集團研究院精準廣告研發中心大數據架構師、百度鳳巢系統開發者,參與過搜狐廣告精準投放系統、優酷視頻人機協同推薦系統等多個系統的研發工作,多次在技術論壇授課,有豐富的開發和系統架構經驗。
馮傲風
百度糯米電影研發工程師,在搜狐、IBM、EMC參與過多項Hadoop大數據產品研發,有豐富的開發經驗,對Hadoop以及Hadoop生態圈的相關技術有深刻的理解。

<章節目錄>

Contents
譯者序
作者簡介
前言
第1章為什麼會有大數據
1.1什麼是大數據
1.2大數據技術背後的核心思想
1.2.1把數據分發到多個節點
1.2.2把計算邏輯移動到數據附近
1.2. 3計算節點進行本地數據處理
1.2.4優選順序讀,次之隨機讀
1.2.5一個例子
1.3大數據的編程模型
1.3.1大規模並行處理數據庫系統
1.3.2內存數據庫系統
1.3.3MapReduce系統
1.3. 4整體同步並行系統
1.4大數據和事務性系統
1.5我們能處理多大的數據量
1.5.1一個計算密集型的例子
1.5.2Amdhal定律
1.6大數據商業用例
1.7本章小結
第2章Hadoop中的概念
2.1Hadoop簡介
2.2MapReduce編程模型簡介
2.3Hadoop系統的組成
2.3.1Hadoop分佈式文件系統
2.3.2輔助名稱節點
2.3.3任務跟蹤器
2.3.4作業跟蹤器
2.4Hadoop 2.
2.4.1容器
2.4.2節點管理器
2.4.3資源管理器
2.4.4應用程序管理器
2.4.5分步詳解YARN請求
2.5HDFS的高可用性
2.6本章小結
第3章初識Hadoop框架
3.1安裝類型
3.1.1單機模式
3.1.2偽分佈式集群模式
3.1.3多節點集群安裝模式
3.1.4基於Amazon EMR預安裝模式
3.2使用Cloudera虛擬機搭建開發環境
3.3一個MapReduce程序的組成
3.4第一個Hadoop程序
3.4.1以本地模式運行程序的必要條件
3.4.2使用舊API編寫的單詞計數程序
3.4.3構建程序
3.4.4在集群模式下運行單詞計數程序
3.4. 5使用新API編寫的單詞計數程序
3.4.6構建程序
3.4.7在集群模式下運行單詞計數程序
3.5Hadoop作業中的第三方函數庫
3.6本章小結
第4章Hadoop系統管理
4.1Hadoop的配置文件
4.2配置Hadoop守護進程
4.3Hadoop配置文件的優先級
4.4深入探究Hadoop配置文件
4.4.1coresite.xml
4.4.2hdfs*.xml
4.4.3mapredsite.xml
4.4.4yarnsite.xml
4.4.5YARN中的內存分配
4.5調度器
4.5.1計算能力調度器
4.5.2公平調度器
4.5.3公平調度器配置
4.5.4 yarnsite.xml配置
4.5.5策略文件的格式和配置
4.5.6按照drf策略來確定優勢資源的分配
4.6從屬文件
4.7機架感知
4.8集群管理工具
4.8.1檢查HDFS
4.8.2 HDFS管理命令行
4.8.3均衡HDFS上的數據分佈
4.8.4從HDFS中復制海量數據
4.9本章小結
第5章MapReduce開發基礎
5.1 Hadoop和數據處理
5.2航空公司數據集介紹
5.2.1準備開發環境
5.2.2準備Hadoop系統
5.3 MapReduce編程模式
5.3.1只有Map階段的作業(SELECT和WHERE查詢)
5.3.2問題定義―SELECT子句
5.3.3問題定義―WHERE子句
5.3.4 Map和Reduce作業(聚合查詢)
5.3.5問題定義―GROUP BY和SUM子句
5.3.6應用Combiner提高Aggregation性能
5.3.7問題定義―優化後的Aggregators
5.3.8 Partitioner的作用
5.3.9問題定義―按月分離航空數據
5.4綜合分析
5.5本章小結
第6章MapReduce開發進階
6.1 MapReduce編程模式
6.2 Hadoop I/O介紹
6.3問題定義―排序
6.3.1主要挑戰:全排序
6.3. 2在Cluster中運行Sorting作業
6.3.3僅根據Writable鍵排序
6.3.4根據排序回顧Hadoop的關鍵特性
6.4問題定義―分析連續的記錄
6.4.1支持二次排序的重要組件
6.4.2在沒有Grouping Comparator的情況下實現Secondary Sort
6.4.3在Cluster中運行SecondarySort作業
6.4.4利用Secondary Sort回顧Hadoop的關鍵特性
6.5問題定義―使用MapReducer進行連接
6.5.1處理多輸入:MultipleInputs類
6.5.2具備多個輸入的Mapper類
6.5.3自定義Partitioner: CarrierCodeBasedPartioner
6.5.4在Reducer中實現連接
6.5.5在集群中運行MapReduce連接作業
6.5.6探討與MapReduce相關的Hadoop主要特性
6.6問題定義―使用MapOnly作業進行連接
6.6 .1基於DistributeCache的解決方案
6.6.2在集群中運行MapOnly的連接作業
6.6.3總結探討MapOnly連接時的Hadoop關鍵特性
6.7在MR ​​作業中保存結果到多輸出文件
6.8使用計數器收集統計數據
6.9本章小結
第7章Hadoop輸入/輸出
7.1壓縮方式
7.1.1壓縮內容的選擇
7.1.2各種壓縮方式
7.1.3配置壓縮方式
7.2 Hadoop的I/O處理過程內部
7.2.1 Inputformat
7.2.2 OutputFormat
7.2.3自定義OutputFormat:將文本轉換成XML
7.2.4自定義InputFormat:使用自定義的XML文件
7.3 Hadoop文件
7.3.1 SequenceFile
7.3.2 MapFiles
7.3.3 Avro Files
7.4本章小結
第8章測試Hadoop程序
8.1回顧一下單詞統計的程序
8.2 MRUnit概述
8.2.1安裝MRUnit
8.2.2 MRUnit核心類
8.2.3編寫一個MRUnit測試用例
8.2.4測試計數器
8.2.5 MRUnit的特性
8.2.6 MRUnit的局限性
8.3用LocalJobRunner測試
8.3. 1 setUp( )方法
8.3.2 LocalJobRunner的局限性
8.4用MiniMRCluster測試
8.4.1配置開發環境
8.4.2 MiniMRCluster例子
8.4.3 MiniMRCluster的局限性
8.5對訪問網絡資源的MR作業進行測試
8.6本章小結
第9章Hadoop的監控
9.1在Hadoop MapReduce Jobs中寫日誌消息
9.2在Hadoop MapReduce Jobs中查看日誌消息
9.3在Hadoop 2.x中使用日誌管理
9.3.1 Hadoop 2.x中的日誌存儲
9.3.2日誌管理提升
9.3. 3使用基於Web的界面查看日誌
9.3.4命令行界面
9.3.5日誌的保存
9.4 Hadoop集群性能監控
9.5使用YARN REST API
9.6使用供應商工具管理Hadoop集群
9.7本章小結
第10章使用Hadoop構建數據倉庫
10.1 Apache Hive
10.1.1安裝Hive
10.1.2 Hive的架構
10.1.3元數據存儲
10.1.4 HiveQL編譯基礎
10.1.5 Hive使
……
第11章使用Pig進行數據處理
第12章HCatalog和企業級Hadoop
第13章使用Hadoop分析日誌
第14章使用HBase構建實時系統
第15章Hadoop與數據科學
第16章Hadoop與雲計算
第17章構建YARN應用程序
附錄