Hadoop硬實戰 Hadoop硬实战

亞歷克斯·霍姆斯 (Alex Holmes)

  • 出版商: 電子工業
  • 出版日期: 2015-01-01
  • 定價: $594
  • 售價: 8.5$505
  • 語言: 簡體中文
  • 頁數: 511
  • 裝訂: 平裝
  • ISBN: 7121250721
  • ISBN-13: 9787121250729
  • 相關分類: Hadoop
  • 無法訂購

買這商品的人也買了...

商品描述

 

<內容簡介>

Hadoop是一個開源的MapReduce平臺,設計運行在大型分佈式集群環境中,為開發者進行數據存儲、管理以及分析提供便利的方法。霍姆斯編著的《Hadoop硬實戰》詳細講解了Hadoop和MapReduce的基本概念,並收集了85個問題及其解決方案。在關鍵問題領域對基礎概念和實戰方法做了權衡。
本書適合使用Hadoop進行數據存儲、管理和分析的技術人員使用。

<章節目錄>

前言
致謝
關於本書
第1部分 背景和基本原理
1 跳躍中的Hadoop
  1.1 什麼是Hadoop
    1.1.1 Hadoop 的核心組件
    1.1.2 Hadoop 生態圈
    1.1.3 物理架構
    1.1.4 誰在使用Hadoop
    1.1.5 Hadoop 的局限性
  1.2 運行Hadoop
    1.2.1 下載並安裝Hadoop
    1.2.2 Hadoop 的配置
    1.2.3 CLI 基本命令
    1.2.4 運行MapReduce 作業
  1.3 本章小結
第2部分 數據邏輯
2 將數據導入導出Hadoop
  2.1 導入導出的關鍵要素
  2.2 將數據導入Hadoop
    2.2.1 將日誌文件導入Hadoop
      技術點1 使用Flume 將系統日誌文件導入HDFS
    2.2.2 導入導出半結構化和二進制文件
      技術點2 自動複製文件到HDFS 的機制
      技術點3 使用Oozie 定期執行數據導入活動
    2.2.3 從數據庫中拉數據
      技術點4 使用MapReduce 將數據導入數據庫
      技術點5 使用Sqoop 從MySQL 導入數據
    2.2.4 HBase
      技術點6 HBase 導入HDFS
      技術點7 將HBase 作為MapReduce 的數據源
  2.3 將數據導出Hadoop
    2.3.1 將數據導入本地文件系統
      技術點8 自動複製HDFS 中的文件
    2.3.2 數據庫
      技術點9 使用Sqoop 將數據導入MySQL
    2.3.3 Hbase
      技術點10 將數據從HDFS 導入HBase
      技術點11 使用HBase 作為MapReduce 的數據接收器
  2.4 本章小結
3 數據序列化——處理文本文件及其他格式的文件
  3.1 瞭解MapReduce 中的輸入和輸出
    3.1.1 數據輸入
    3.1.2 數據輸出
……
第3部分 大數據模式
4 處理大數據的MapReduce 模式.
5 優化HDFS 處理大數據的技術
6 診斷和優化性能問題

第4部分 數據科學
7 數據結構和演算法的運用
8 結合R 和Hadoop 進行數據統計
9 使用Mahout 進行預測分析
第5部分 馴服大象
10 深入解析 Hive
11 Pig 流管道
12 Crunch 及相關技術
13 測試和調試
附錄A 相關技術
附錄B Hadoop 內置的數據導入導出工具
附錄C HDFS 解剖
附錄D 優化MapReduce 合併框架
索引

 

目錄大綱