買這商品的人也買了...
-
大話設計模式$620$490 -
精通 Python|運用簡單的套件進行現代運算 (Introducing Python: Modern Computing in Simple Packages)$780$616 -
$305圖解機器學習 -
$230Spark Cookbook (中文版) -
$352大數據架構詳解:從數據獲取到深度學習 -
$414數據架構:大數據、數據倉庫以及 Data Vault -
超圖解 Arduino 互動設計入門, 3/e$680$578 -
Python 自動化的樂趣|搞定重複瑣碎 & 單調無聊的工作 (中文版) (Automate the Boring Stuff with Python: Practical Programming for Total Beginners)$500$425 -
深度學習快速入門 — 使用 TensorFlow (Getting started with TensorFlow)
$360$281 -
一次搞定:所有 Python Web 框架開發百科全書(最完整Python Web框架,包括Django、Flask、Tornado、Twisted等)$590$502 -
TensorFlow + Keras 深度學習人工智慧實務應用$590$460 -
寫程式前就該懂的演算法 ─ 資料分析與程式設計人員必學的邏輯思考術 (Grokking Algorithms: An illustrated guide for programmers and other curious people)$390$308 -
精實 UX 設計|帶領敏捷團隊打造出色的產品, 2/e (Lean UX: Designing Great Products with Agile Teams, 2/e)$450$356 -
Deep Learning|用 Python 進行深度學習的基礎理論實作$580$458 -
演算法圖鑑:26種演算法 + 7種資料結構,人工智慧、數據分析、邏輯思考的原理和應用 step by step 全圖解$450$356 -
為你自己學 Git$500$425 -
$327高效機器學習:理論、算法及實踐 -
初探機器學習演算法$480$379 -
Python 入門邁向高手之路王者歸來$699$594 -
$374機器學習實踐指南 -
$301機器學習 理論 實踐與提高 -
$374機器學習:實用技術指南 -
$374實用機器學習 -
$280數據科學與大數據技術導論 -
$301Python 數據科學導論:概念、技術與應用
商品描述
<內容簡介>
本書以時下流行的Hadoop所存在的缺陷為出發點,深入淺出地介紹了下一代大數據處理核心技術Spark的優勢和必要性,並以簡潔的指引步驟展示瞭如何在10分鐘內建立一個Spark大數據處理環境。在此基礎上,本書以圖文並茂和豐富的示例代碼講解的形式系統性地揭示了Spark的運行原理、算子使用、算法設計和優化手段,為讀者提供了一個快速由淺入深掌握Spark基礎能力和高級技巧的參考書籍。
本書共六章,涉及的主題主要包括大數據處理技術從Hadoop發展到Spark的必然性、快速體驗Spark的指引、Spark架構和原理、RDD算子使用方法和示例、Spark算法設計實例、Spark程序優化方法。
本書適合需要使用Spark進行大數據處理的程序員、架構師和產品經理作為技術參考和培訓資料,亦可作為高校研究生和本科生教材。
<章節目錄>
第1章從Hadoop到Spark
1.1Hadoop——大數據時代的火種
1.1.1大數據的由來
1.1.2Google解決大數據計算問題的方法
1.1.3Hadoop的由來與發展
1.2Hadoop的局限性
1.2.1Hadoop運行機制
1.2.2Hadoop的性能問題
1.2.3針對Hadoop的改進
1.3大數據技術新星——Spark
1.3.1Spark的出現與發展
1.3. 2Spark協議族
1.3.3Spark的應用及優勢
第2章體驗Spark
2.1安裝和使用Spark
2.1.1安裝Spark
2.1.2瞭解Spark目錄結構
2.1.3使用Spark Shell
2. 2編寫和運行Spark程序
2.2.1安裝Scala插件
2.2.2編寫Spark程序
2.2.3運行Spark程序
2.3Spark Web UI
2.3.1訪問實時Web UI
2.3.2從實時UI查看作業信息
第3章Spark原理
3.1Spark工作原理
3.2Spark架構及運行機制
3.2.1Spark系統架構與節點角色
3.2.2Spark作業執行過程
3.2.3應用初始化
3.2 .4構建RDD有向無環圖
3.2.5RDD有向無環圖拆分
3.2.6Task調度
3.2.7Task執行
第4章RDD算子
4.1創建算子
4.1.1基於集合類型數據創建RDD
4.1.2基於外部數據創建RDD
4.2變換算子
4.2.1對Value型RDD進行變換
4.2.2對Key/ Value型RDD進行變換
4.3行動算子
4.3.1數據運算類行動算子
4.3.2存儲型行動算子
4.4緩存算子
第5章Spark算法設計
5.1過濾
5.2去重計數
5.3相關計數
5. 4相關係數
5.5數據聯結
5.6TopK
5.7Kmeans
5.8關聯規則挖掘
5.9kNN
5.10樸素貝葉斯分類
第6章善用Spark
6.1合理分配資源
6.2控制並行度
6.3利用持久化
6.4選擇恰當的算子
6.5利用共享變量
6.5.1累加器變量
6.5.2廣播變量
6.6利用序列化技術
6.7關註數據本地性
6.8內存優化策略
6.9集成外部工具
參考文獻
