買這商品的人也買了...
-
$1,680Software Architecture in Practice, 2/e (Hardcover) -
$414面向模式的軟件架構(捲1)-模式系統 (Pattern-Oriented Software Architecture Volume 1: A System of Patterns) -
$825Machine Learning with Spark - Tackle Big Data with Powerful Spark Machine Learning Algorithms (Paperback) -
$280第一本 Docker 書 (修訂版) -
$1,167計算機程序設計藝術 捲2 : 半數值算法, 3/e (The Art of Computer Programming, Volume 2 : Seminumerical Algorithms, 3/e) -
$939計算機程序設計藝術 捲3 : 排序與查找, 2/e (The Art of Computer Programming, Volume 3 : Sorting and Searching, 2/e) -
$294PySpark 實戰指南 : 利用 Python 和 Spark 構建數據密集型應用並規模化部署 (Learning PySpark) -
$534Kafka 並不難學!入門、進階、商業實戰 -
因果革命:人工智慧的大未來 (硬殼精裝)(The Book of Why: The New Science of Cause and Effect)$680$578 -
$659Redis 5 設計與源碼分析 -
$768銀行業數據中心性能測試的策略與實踐 -
$297Spark 海量數據處理 : 技術詳解與平臺實戰 -
NumPy 高速運算徹底解說 - 六行寫一隻程式?你真懂深度學習?手工算給你看!$750$638 -
$607Spark權威指南 -
$1,559Spark 大數據商業實戰三部曲:內核解密|商業案例|性能調優, 2/e -
$280大數據 Hive 離線計算開發實戰 -
$607Kubernetes 微服務實戰 (Hands-On Microservices with Kubernetes) -
$571HTTP/2 in Action (簡體中文版) -
矽谷資深演算法大師:帶你學深度學習推薦系統 (附8頁彩頁)$780$616 -
$454中臺實踐:數字化轉型方法論與解決方案 -
$564複雜軟件設計之道:領域驅動設計全面解析與實戰 -
網站最佳化實務|運用機器學習改善網站,提升使用者體驗$580$458 -
$678實用推薦系統 -
OpenCV 影像創意邁向 AI 視覺王者歸來 (全彩印刷)$890$668 -
銷售 AI 化!看資料科學家如何思考, 用 Python 打造能賺錢的機器學習模型$620$527
中文年末書展|繁簡參展書2書75折 詳見活動內容 »
-
75折
為你寫的 Vue Components:從原子到系統,一步步用設計思維打造面面俱到的元件實戰力 (iThome 鐵人賽系列書)$780$585 -
75折
BDD in Action, 2/e (中文版)$960$720 -
75折
看不見的戰場:社群、AI 與企業資安危機$750$563 -
79折
AI 精準提問 × 高效應用:DeepSeek、ChatGPT、Claude、Gemini、Copilot 一本搞定$390$308 -
7折
超實用!Word.Excel.PowerPoint 辦公室 Office 365 省時高手必備 50招, 4/e (暢銷回饋版)$420$294 -
75折
裂縫碎光:資安數位生存戰$550$412 -
日本當代最強插畫 2025 : 150位當代最強畫師豪華作品集$640$576 -
79折
Google BI 解決方案:Looker Studio × AI 數據驅動行銷實作,完美整合 Google Analytics 4、Google Ads、ChatGPT、Gemini$630$498 -
79折
超有料 Plus!職場第一實用的 AI 工作術 - 用對 AI 工具、自動化 Agent, 讓生產力全面進化!$599$473 -
75折
從零開始學 Visual C# 2022 程式設計, 4/e (暢銷回饋版)$690$518 -
75折
Windows 11 制霸攻略:圖解 AI 與 Copilot 應用,輕鬆搞懂新手必學的 Windows 技巧$640$480 -
75折
精準駕馭 Word!論文寫作絕非難事 (好評回饋版)$480$360 -
Sam Yang 的插畫藝術:用 Procreate / PS 畫出最強男友視角 x 女孩美好日常$699$629 -
79折
AI 加持!Google Sheets 超級工作流$599$473 -
78折
想要 SSR? 快使用 Nuxt 吧!:Nuxt 讓 Vue.js 更好處理 SEO 搜尋引擎最佳化(iThome鐵人賽系列書)$780$608 -
78折
超實用!業務.總管.人資的辦公室 WORD 365 省時高手必備 50招 (第二版)$500$390 -
7折
Node-RED + YOLO + ESP32-CAM:AIoT 智慧物聯網與邊緣 AI 專題實戰$680$476 -
79折
「生成式⇄AI」:52 個零程式互動體驗,打造新世代人工智慧素養$599$473 -
7折
Windows APT Warfare:惡意程式前線戰術指南, 3/e$720$504 -
75折
我輩程式人:回顧從 Ada 到 AI 這條程式路,程式人如何改變世界的歷史與未來展望 (We, Programmers: A Chronicle of Coders from Ada to AI)$850$637 -
75折
不用自己寫!用 GitHub Copilot 搞定 LLM 應用開發$600$450 -
79折
Tensorflow 接班王者:Google JAX 深度學習又快又強大 (好評回饋版)$780$616 -
79折
GPT4 會你也會 - 共融機器人的多模態互動式情感分析 (好評回饋版)$700$553 -
79折
技術士技能檢定 電腦軟體應用丙級術科解題教本|Office 2021$460$363 -
75折
Notion 與 Notion AI 全能實戰手冊:生活、學習與職場的智慧策略 (暢銷回饋版)$560$420
相關主題
商品描述
近年來,以Apache Spark為代表的大數據處理框架在學術界和工業界得到了廣泛的使用。本書以Apache Spark框架為核心,總結了大數據處理框架的基礎知識、核心理論、典型的Spark應用,以及相關的性能和可靠性問題。本書分9章,主要包含四部分內容。第一部分 大數據處理框架的基礎知識(第1~2章):介紹大數據處理框架的基本概念、系統架構、編程模型、相關的研究工作,並以一個典型的Spark應用為例概述Spark應用的執行流程。第二部分 Spark大數據處理框架的核心理論(第3~4章):介紹Spark框架將應用程序轉化為邏輯處理流程,進而轉化為可並行執行的物理執行計劃的一般過程及方法。第三部分 典型的Spark應用(第5章):介紹疊代型的Spark機器學習應用和圖計算應用。第四部分 大數據處理框架性能和可靠性保障機制(第6~9章):介紹Spark框架的Shuffle機制、數據緩存機制、錯誤容忍機制、內存管理機制等。
目錄大綱
目 錄 第 1 章 大數據處理框架概覽 .....................2 1.1 大數據及其帶來的挑戰 ...................2 1.2 大數據處理框架 ...............................3 1.3 大數據應用及編程模型 ...................4 1.4 大數據處理框架的四層結構 ...........5 1.4.1 用戶層 ......................................... 7 1.4.2 分佈式數據並行處理層 ............11 1.4.3 資源管理與任務調度層 ........... 13 1.4.4 物理執行層 ............................... 15 1.5 錯誤容忍機制 .................................17 1.6 其他大數據處理框架 .....................18 1.7 本章小結 .........................................18 1.8 擴展閱讀 .........................................18 第 2 章 Spark 系統部署與應用運行的基本流程 .....................................20 2.1 Spark 安裝部署 ..............................20 2.2 Spark 系統架構 ..............................21 2.3 Spark 應用例子 ..............................24 2.3.1 用戶代碼基本邏輯 ................... 24 2.3.2 邏輯處理流程 ........................... 28 2.3.3 物理執行計劃 ........................... 32 2.3.4 可視化執行過程 ....................... 34 2.4 Spark 編程模型 ..............................38 2.5 本章小結 .........................................39 第 3 章 Spark 邏輯處理流程 ...................41 3.1 Spark 邏輯處理流程概覽 ..............41 3.2 Spark 邏輯處理流程生成方法 ......43 3.2.1 根據應用程序如何產生 RDD,產生什麼樣的 RDD ................ 44 3.2.2 如何建立 RDD 之間的數據依賴 關系.......................................... 44 3.2.3 如何計算 RDD 中的數據 ........ 49 3.3 常用 transformation() 數據操作 ....50 3.4 常用 action() 數據操作 ..................86 3.5 對比 MapReduce,Spark 的優缺點.................................................98 3.6 本章小結 .........................................99 3.7 擴展閱讀 .......................................100 第 4 章 Spark 物理執行計劃 .................101 4.1 Spark 物理執行計劃概覽 ............101 4.2 Spark 物理執行計劃生成方法 ....105 4.3 常用數據操作生成的物理執行計劃...............................................113 4.4 本章小結 .......................................121 4.5 擴展閱讀 .......................................121 第 5 章 疊代型 Spark 應用 ....................123 5.1 疊代型 Spark 應用的分類及特點...............................................123 5.2 疊代型機器學習應用 SparkLR ...124 5.2.1 應用描述 ................................ 124 5.2.2 算法原理 ................................ 125 5.2.3 基於 Spark 的並行化實現 ..... 129 5.2.4 深入討論 ................................. 131 5.3 疊代型機器學習應用——廣義 線性模型.......................................132 5.3.1 算法原理 ................................. 132 5.3.2 基於 Spark 的並行化實現 ..... 136 5.3.3 深入討論 ................................. 139 5.4 疊代型圖計算應用——PageRank ......................................140 5.4.1 應用描述 ................................. 140 5.4.2 基於 Spark 的並行化實現 ..... 143 5.4.3 深入討論 ................................. 149 5.5 本章小結 .......................................151 第 6 章 Shuffle 機制 ..............................153 6.1 Shuffle 的意義及設計挑戰 ..........153 6.2 Shuffle 的設計思想 ......................155 6.2.1 解決數據分區和數據聚合問題 ........................................ 156 6.2.2 解決 map() 端 combine問題 ........................................ 158 6.2.3 解決 sort 問題 ......................... 158 6.2.4 解決內存不足問題 ................. 159 6.3 Spark 中 Shuffle 框架的設計 .......160 6.3.1 Shuffle Write 框架設計和實現 ........................................ 161 6.3.2 Shuffle Read 框架設計和實現 ........................................ 166 6.4 支持高效聚合和排序的數據 結構...............................................170 6.4.1 AppendOnlyMap 的原理 ........ 171 6.4.2 ExternalAppendOnlyMap ...... 173 6.4.3 PartitionedAppendOnlyMap ... 176 6.4.4 PartitionedPairBuffer .............. 176 6.5 與 Hadoop MapReduce 的 Shuffle 機制對比.......................................177 6.6 本章小結 .......................................179 第 7 章 數據緩存機制 ...........................180 7.1 數據緩存的意義 ...........................180 7.2 數據緩存機制的設計原理 ...........181 7.2.1 決定哪些數據需要被緩存 ..... 181 7.2.2 包含數據緩存操作的邏輯處理流程和物理執行計劃 .... 184 7.2.3 緩存級別 ................................. 186 7.2.4 緩存數據的寫入方法 ............. 189 7.2.5 緩存數據的讀取方法 ............. 191 7.2.6 用戶接口的設計 ..................... 192 7.2.7 緩存數據的替換與回收方法 ........................................ 193 7.3 與 Hadoop MapReduce 的緩存機制進行對比...............................197 7.4 本章小結 .......................................198 第 8 章 錯誤容忍機制 ...........................199 8.1 錯誤容忍機制的意義及挑戰 .......199 8.2 錯誤容忍機制的設計思想 ...........201 8.3 重新電腦制 ...............................201 8.3.1 重新計算是否能夠得到與之前一樣的結果 ............................ 202 8.3.2 從哪裡開始重新計算 ............. 204 8.3.3 重新電腦制小結 ................. 207 8.4 checkpoint 機制的設計與實現 ....207 8.4.1 哪些數據需要使用 checkpoint機制 ........................................ 207 8.4.2 checkpoint 數據的寫入及接口 ........................................ 210 8.4.3 checkpoint 時機及計算順序 ... 212 8.4.4 checkpoint 數據的讀取 .......... 213 8.4.5 checkpoint 數據寫入和讀取的實現細節 ................................ 213 8.4.6 checkpoint 語句位置的影響.... 216 8.4.7 cache + checkpoint .................. 220 8.5 checkpoint 與數據緩存的區別 ....225 8.6 本章小結 .......................................226 第 9 章 內存管理機制 ...........................227 9.1 內存管理機制問題及挑戰 ...........227 9.2 應用內存消耗來源及影響因素 ...228 9.2.1 內存消耗來源 1:用戶代碼 .... 229 9.2.2 內存消耗來源 2:Shuffle 機制中產生的中間數據 ................ 230 9.2.3 內存消耗來源 3:緩存數據 .... 231 9.3 Spark 框架內存管理模型 ............232 9.3.1 靜態內存管理模型 ................. 233 9.3.2 統一內存管理模型 ................. 234 9.4 Spark 框架執行內存消耗與管理...............................................237 9.4.1 Shuffle Write 階段內存消耗及管理 ........................................ 239 9.4.2 Shuffle Read 階段內存消耗及管理 ........................................ 245 9.5 數據緩存空間管理 .......................249 9.5.1 RDD 緩存數據 ....................... 250 9.5.2 廣播數據 ................................. 253 9.5.3 task 的計算結果 ..................... 254 9.6 本章小結 .......................................256 參考文獻 .................................................258
