Spark大數據處理:原理、算法與實例 Spark大数据处理:原理、算法与实例
劉軍, 林文輝, 方澄
- 出版商: 清華大學
- 出版日期: 2016-09-01
- 定價: $294
- 售價: 8.5 折 $250
- 語言: 簡體中文
- 頁數: 199
- 裝訂: 平裝
- ISBN: 7302449953
- ISBN-13: 9787302449959
-
相關分類:
Spark、大數據 Big-data
立即出貨 (庫存 < 3)
買這商品的人也買了...
-
$620$527 -
$780$616 -
$305圖解機器學習
-
$230Spark Cookbook (中文版)
-
$327大數據架構詳解:從數據獲取到深度學習
-
$414數據架構:大數據、數據倉庫以及 Data Vault
-
$680$578 -
$500$395 -
$360$180 -
$590$502 -
$590$460 -
$390$308 -
$450$356 -
$580$458 -
$450$356 -
$500$425 -
$327高效機器學習:理論、算法及實踐
-
$480$379 -
$699$594 -
$356機器學習實踐指南
-
$301機器學習 理論 實踐與提高
-
$356機器學習:實用技術指南
-
$356實用機器學習
-
$280數據科學與大數據技術導論
-
$301Python 數據科學導論:概念、技術與應用
初夏簡體電腦展2書75折 詳見活動內容 »
-
79折
$284一本書玩轉 DeepSeek -
VIP 95折
$774$735 -
79折
$379AI全能助手 人人都能玩轉DeepSeek -
VIP 95折
$834$792 -
87折
$312解鎖 DeepSeek:開啟多元智能應用新時代 -
VIP 95折
$419$398 -
79折
$378DeepSeek 極速上手 : 高效做事不內耗 -
85折
$250DeepSeek 應用能手 : 7天從入門到精通 -
VIP 95折
$359$341 -
VIP 95折
$659$626 -
VIP 95折
$599$569 -
VIP 95折
$359$341 -
VIP 95折
$324$308 -
VIP 95折
$299$284 -
VIP 95折
$419$398 -
85折
$305DeepSeek公文寫作一本通 -
85折
$152AI 導航式提問法 : 用好 DeepSeek 與元寶的高效提問手冊 -
85折
$403DeepSeek全場景應用 -
85折
$45424小時精通 AI Agent (快速定製你的智能體) -
79折
$378Joy RL:強化學習實踐教程 -
85折
$357大模型應用開發極簡入門(基於DeepSeek雙色版) -
VIP 95折
$774$735 -
85折
$505大模型驅動的研發效能實踐 -
VIP 95折
$588$559 -
VIP 95折
$534$507
相關主題
商品描述
<內容簡介>
本書以時下流行的Hadoop所存在的缺陷為出發點,深入淺出地介紹了下一代大數據處理核心技術Spark的優勢和必要性,並以簡潔的指引步驟展示瞭如何在10分鐘內建立一個Spark大數據處理環境。在此基礎上,本書以圖文並茂和豐富的示例代碼講解的形式系統性地揭示了Spark的運行原理、算子使用、算法設計和優化手段,為讀者提供了一個快速由淺入深掌握Spark基礎能力和高級技巧的參考書籍。
本書共六章,涉及的主題主要包括大數據處理技術從Hadoop發展到Spark的必然性、快速體驗Spark的指引、Spark架構和原理、RDD算子使用方法和示例、Spark算法設計實例、Spark程序優化方法。
本書適合需要使用Spark進行大數據處理的程序員、架構師和產品經理作為技術參考和培訓資料,亦可作為高校研究生和本科生教材。
<章節目錄>
第1章從Hadoop到Spark
1.1Hadoop——大數據時代的火種
1.1.1大數據的由來
1.1.2Google解決大數據計算問題的方法
1.1.3Hadoop的由來與發展
1.2Hadoop的局限性
1.2.1Hadoop運行機制
1.2.2Hadoop的性能問題
1.2.3針對Hadoop的改進
1.3大數據技術新星——Spark
1.3.1Spark的出現與發展
1.3. 2Spark協議族
1.3.3Spark的應用及優勢
第2章體驗Spark
2.1安裝和使用Spark
2.1.1安裝Spark
2.1.2瞭解Spark目錄結構
2.1.3使用Spark Shell
2. 2編寫和運行Spark程序
2.2.1安裝Scala插件
2.2.2編寫Spark程序
2.2.3運行Spark程序
2.3Spark Web UI
2.3.1訪問實時Web UI
2.3.2從實時UI查看作業信息
第3章Spark原理
3.1Spark工作原理
3.2Spark架構及運行機制
3.2.1Spark系統架構與節點角色
3.2.2Spark作業執行過程
3.2.3應用初始化
3.2 .4構建RDD有向無環圖
3.2.5RDD有向無環圖拆分
3.2.6Task調度
3.2.7Task執行
第4章RDD算子
4.1創建算子
4.1.1基於集合類型數據創建RDD
4.1.2基於外部數據創建RDD
4.2變換算子
4.2.1對Value型RDD進行變換
4.2.2對Key/ Value型RDD進行變換
4.3行動算子
4.3.1數據運算類行動算子
4.3.2存儲型行動算子
4.4緩存算子
第5章Spark算法設計
5.1過濾
5.2去重計數
5.3相關計數
5. 4相關係數
5.5數據聯結
5.6TopK
5.7Kmeans
5.8關聯規則挖掘
5.9kNN
5.10樸素貝葉斯分類
第6章善用Spark
6.1合理分配資源
6.2控制並行度
6.3利用持久化
6.4選擇恰當的算子
6.5利用共享變量
6.5.1累加器變量
6.5.2廣播變量
6.6利用序列化技術
6.7關註數據本地性
6.8內存優化策略
6.9集成外部工具
參考文獻