Spark 大數據處理(技術應用與性能優化) Spark大数据处理:技术、应用与性能优化 (大数据技术丛书)

高彥傑

  • 出版商: 機械工業
  • 出版日期: 2014-11-01
  • 定價: $354
  • 售價: 8.5$301
  • 語言: 簡體中文
  • 頁數: 255
  • ISBN: 7111483863
  • ISBN-13: 9787111483861
  • 相關分類: Spark大數據 Big-data
  • 下單後立即進貨 (約4週~6週)

買這商品的人也買了...

商品描述

<內容簡介>

高彥傑編著的《Spark大數據處理》是一本依據最新技術版本,系統、全面、詳細講解Spark的著作,作者結合自己在微軟和IBM的實踐經驗和對Spark源代碼的研究撰寫而成。首先從技術層面講解了Spark的體系結構、工作機制、安裝與部署、開發環境搭建、計算模型、Benchmark、BDAS等內容;然後從應用角度講解了一些簡單的、有代表性的案例;最後對Spark的性能優化進行了探討。

<目錄>

前言
第1章 Spark簡介
  1.1 Spark是什麼
  1.2 Spark生態系統
  1.3 Spark架構
  1.4 Spark分佈式架構與單機多核架構的異同
  1.5 Spark的企業級應用
    1.5.1 Spark在Amazon中的應用
    1.5.2 Spark在Yahoo!的應用
    1.5.3 Spark在西班牙電信的應用
    1.5.4 Spark在淘寶的應用
  1.6 本章小結
第2章 Spark集群的安裝與部署
  2.1 Spark的安裝與部署
    2.1.1 在Linux集群上安裝與配?
    2.1.2 在Windows上安裝與配?
  2.2 Spark集群初試
  2.3 本章小結
第3章 Spark計算模型
  3.1 Spark程序模型
  3.2 彈性分佈式數據集
    3.2.1 RDD簡介
    3.2.2 RDD與分佈式共享內存的異同
    3.2.3 Spark的數據存儲
  3.3 Spark算子分類及功能
    3.3.1 Value型Transformation算子
    3.3.2 Key-Value型Transformation算子
    3.3.3 Actions算子
  3.4 本章小結
第4章 Spark工作機制詳解
  4.1 Spark應用執行機制
    4.1.1 Spark執行機制總覽
    4.1.2 Spark應用的概念
    4.1.3 應用提交與執行方式
  4.2 Spark調度與任務分配模塊
    4.2.1 Spark應用程序之間的調度
    4.2.2 Spark應用程序內Job的調度
    4.2.3 Stage和TaskSetManager調度方式
    4.2.4 Task調度
  4.3 Spark I/O機制
    4.3.1 序列化
    4.3.2 壓縮
    4.3.3 Spark塊管理
  4.4 Spark通信模塊
    4.4.1 通信框架
    4.4.2 Client、Master和Worker間的通信
  4.5 容錯機制
    4.5.1 Lineage機制
    4.5.2 Checkpoint機制
  4.6 Shuffle機制
  4.7 本章小結
第5章 Spark開發環境配置及流程
  5.1 Spark應用開發環境配置
    5.1.1 使用Intellij開發Spark程序
    5.1.2 使用Eclipse開發Spark程序
    5.1.3 使用SBT構建Spark程序
    5.1.4 使用Spark Shell開發運行Spark程序
  5.2 遠程調試Spark程序
  5.3 Spark編譯
  5.4 配置Spark源碼閱讀環境
  5.5 本章小結
第6章 Spark編程實戰
  6.1 Word
  6.2 
  6.3 中位數
  6.4 倒排索引
  6.5 Coun
  6.6 傾斜連接
  6.7 股票趨勢預測
  6.8 本章小結
第7章 Benchmark使用詳解
  7.1 Benchmark簡介
    7.1.1 Intel Hibench與Berkeley BigData
    7.1.2 Hadoop Gr
    7.1.3 Bigbench、BigDataBenchmark與T
    7.1.4 其他Benc
  7.2 Benchmark的組成
    7.2.1 數據集
    7.2.2 工作負載
    7.2.3 度量指標
  7.3 Benchmark的使用
    7.3.1 使用Hi
    7.3.2 使用T
    7.3.3 使用BigData
  7.4 本章小結
第8章 BDAS簡介
  8.1 SQL on
    8.1.1 使用Spark SQL的原因
    8.1.2 Spark SQL架構分析
    8.1.3 Shark簡介
    8.1.4 Hive on
    8.1.5 未來展望
  8.2 Spark Stre
    8.2.1 Spark Streaming簡介
    8.2.2 Spark Streaming架構
    8.2.3 Spark Streaming原理剖析
    8.2.4 Spark Streaming調優
    8.2.5 Spark Streaming 實例
  8.3 G
    8.3.1 GraphX簡介
    8.3.2 GraphX的使用
    8.3.3 GraphX架構
    8.3.4 運行實例
  8.4 
    8.4.1 MLlib簡介
    8.4.2 MLlib的數據存儲
    8.4.3 數據轉換為向量(向量空間模型VSM)
    8.4.4 MLlib中的聚類和分類
    8.4.5 演算法應用實例
    8.4.6 利用MLlib進行電影推薦
  8.5 本章小結
第9章 Spark性能調優
  9.1 配置參數
  9.2 調優技巧
    9.2.1 調度與分區優化
    9.2.2 內存存儲優化
    9.2.3 網絡傳輸優化
    9.2.4 序列化與壓縮
    9.2.5 其他優化方法
  9.3 本章小結