分佈式機器學習模式 Distributed Machine Learning Patterns
唐源(Yuan Tang)著 梁豪 譯
- 出版商: 清華大學
- 出版日期: 2024-10-01
- 定價: $419
- 售價: 7.9 折 $331
- 語言: 簡體中文
- 頁數: 232
- ISBN: 7302672261
- ISBN-13: 9787302672265
-
相關分類:
Machine Learning
- 此書翻譯自: Distributed Machine Learning Patterns (Paperback)
立即出貨
買這商品的人也買了...
-
$594深入理解 XGBoost:高效機器學習算法與進階 -
$354Python 元學習 : 通用人工智能的實現 (Hands-On Meta Learning with Python: Meta learning using one-shot learning, MAML, Reptile, and Meta-SGD with TensorFlow) -
$393產品開發模式轉型:從需求交付到價值交付 -
$378產品經理方法論 構建完整的產品知識體系 -
輕鬆學量子程式設計|從量子位元到量子演算法$520$411 -
量子計算導論:從線性代數到量子編程$714$678 -
$760隱私保護計算 -
$730機器學習項目交付實戰 -
CPU 眼裡的 C/C++$534$507 -
$454量子計算十講 -
Linux 高可用負載均衡集群實踐真傳$354$336 -
$559大語言模型:基礎與前沿 -
$352量子機器學習 — 基於 Python 的理論和實現 -
Duckdb in Action (Paperback)$2,100$1,995 -
可觀測性入門指南:Logs、Metrics、Traces 三大實戰應用,用 24個 Lab 鞏固你的 SRE 技能樹 (iThome鐵人賽系列書)$680$530 -
$403量子金融:理論與實戰 -
$422機器學習項目成功交付 -
$2,147Continuous Deployment: Enable Faster Feedback, Safer Releases, and More Reliable Software (Paperback) -
$378零基礎快速入行入職軟件測試工程師, 2/e -
算法設計與分析 — C++ 語言描述, 4/e$414$393 -
$1,995Platform Engineering: A Guide for Technical, Product, and People Leaders (Paperback) -
$2,223Financial Data Engineering: Design and Build Data-Driven Financial Products (Paperback) -
$2,565Machine Learning Production Systems: Engineering Machine Learning Models and Pipelines (Paperback) -
C++ 編程之禪:從理論到實踐$1,134$1,077 -
Modern Time Series Forecasting with Python: Industry-ready machine learning and deep learning time series analysis with PyTorch and pandas, 2/e (Paperback)$2,100$1,995
中文年末書展|繁簡參展書2書75折 詳見活動內容 »
-
75折
為你寫的 Vue Components:從原子到系統,一步步用設計思維打造面面俱到的元件實戰力 (iThome 鐵人賽系列書)$780$585 -
75折
BDD in Action, 2/e (中文版)$960$720 -
75折
看不見的戰場:社群、AI 與企業資安危機$750$563 -
79折
AI 精準提問 × 高效應用:DeepSeek、ChatGPT、Claude、Gemini、Copilot 一本搞定$390$308 -
7折
超實用!Word.Excel.PowerPoint 辦公室 Office 365 省時高手必備 50招, 4/e (暢銷回饋版)$420$294 -
75折
裂縫碎光:資安數位生存戰$550$412 -
日本當代最強插畫 2025 : 150位當代最強畫師豪華作品集$640$576 -
79折
Google BI 解決方案:Looker Studio × AI 數據驅動行銷實作,完美整合 Google Analytics 4、Google Ads、ChatGPT、Gemini$630$498 -
79折
超有料 Plus!職場第一實用的 AI 工作術 - 用對 AI 工具、自動化 Agent, 讓生產力全面進化!$599$473 -
75折
從零開始學 Visual C# 2022 程式設計, 4/e (暢銷回饋版)$690$518 -
75折
Windows 11 制霸攻略:圖解 AI 與 Copilot 應用,輕鬆搞懂新手必學的 Windows 技巧$640$480 -
75折
精準駕馭 Word!論文寫作絕非難事 (好評回饋版)$480$360 -
Sam Yang 的插畫藝術:用 Procreate / PS 畫出最強男友視角 x 女孩美好日常$699$629 -
79折
AI 加持!Google Sheets 超級工作流$599$473 -
78折
想要 SSR? 快使用 Nuxt 吧!:Nuxt 讓 Vue.js 更好處理 SEO 搜尋引擎最佳化(iThome鐵人賽系列書)$780$608 -
78折
超實用!業務.總管.人資的辦公室 WORD 365 省時高手必備 50招 (第二版)$500$390 -
7折
Node-RED + YOLO + ESP32-CAM:AIoT 智慧物聯網與邊緣 AI 專題實戰$680$476 -
79折
「生成式⇄AI」:52 個零程式互動體驗,打造新世代人工智慧素養$599$473 -
7折
Windows APT Warfare:惡意程式前線戰術指南, 3/e$720$504 -
75折
我輩程式人:回顧從 Ada 到 AI 這條程式路,程式人如何改變世界的歷史與未來展望 (We, Programmers: A Chronicle of Coders from Ada to AI)$850$637 -
75折
不用自己寫!用 GitHub Copilot 搞定 LLM 應用開發$600$450 -
79折
Tensorflow 接班王者:Google JAX 深度學習又快又強大 (好評回饋版)$780$616 -
79折
GPT4 會你也會 - 共融機器人的多模態互動式情感分析 (好評回饋版)$700$553 -
79折
技術士技能檢定 電腦軟體應用丙級術科解題教本|Office 2021$460$363 -
75折
Notion 與 Notion AI 全能實戰手冊:生活、學習與職場的智慧策略 (暢銷回饋版)$560$420
相關主題
商品描述
" 《分佈式機器學習模式》將詳細介紹數十種設計和部署分佈式機器學習系統的技術。你將使用各種模式解決如下問題:如何進行分佈式模型訓練、如何應對突發的系統故障,以及如何部署動態的模型服務。本書為每種模式都配備了實際的案例分析,以及基於 Kubernetes 實現分佈式模型訓練和彈性推理的完整項目。 主要內容 ● 數據攝取、分佈式訓練、模型服務等概念 ● 使用 Kubeflow 和 Argo 工作流在 Kubernetes 上實現 TensorFlow 的自動化部署 ● 管理和監控大規模機器學習工作負載 "
作者簡介
唐源是 Akuity 的創始工程師,致力於為開發者建立企業級平臺。他曾帶領阿裡巴巴和 Uptake 公司的數據科學與工程團隊,專註於建構 AI 基礎設施和AutoML平臺。他是Argo和Kubeflow專案的負責人、TensorFlow和XGBoost 的維護者以及眾多開源專案的作者。此外,他還撰寫了三本有關機器學習的書籍以及多篇有影響力的論文。他經常在不同的技術會議上發言,並在多個公司和開源組織擔任技術顧問、團隊領導和導師。
目錄大綱
目 錄
第I部分 基本概念和背景
第1章 瞭解開發環境 3
1.1 大規模機器學習 4
1.1.1 不斷擴大的規模 4
1.1.2 解決方案 5
1.2 分佈式系統 6
1.2.1 分佈式系統基本概念 7
1.2.2 復雜性和模式 7
1.3 分佈式機器學習系統 8
1.3.1 分佈式機器學習系統基本概念 8
1.3.2 類似的模式 9
1.3.3 分佈式機器學習系統的應用場景 10
1.3.4 不適合使用分佈式機器學習系統的場景 11
1.4 本書涵蓋的內容 11
1.5 本章小結 12
第II部分 分佈式機器學習系統模式
第2章 數據攝取模式 17
2.1 數據攝取的基本概念 18
2.2 Fashion-MNIST數據集 19
2.3 批處理模式 22
2.3.1 問題:在內存有限的情況下對 Fashion-MNIST數據集執行耗費資源的操作 22
2.3.2 解決方案 24
2.3.3 討論 26
2.3.4 練習 27
2.4 分片模式:在多臺機器之間分割極大的數據集 28
2.4.1 問題 28
2.4.2 解決方案 29
2.4.3 討論 32
2.4.4 練習 34
2.5 緩存模式 34
2.5.1 問題:重新訪問之前使用過的數據以進行高效的多輪模型訓練 35
2.5.2 解決方案 36
2.5.3 討論 38
2.5.4 練習 39
2.6 習題答案 39
2.7 本章小結 40
第3章 分佈式訓練模式 41
3.1 分佈式訓練的基本概念 42
3.2 參數服務器模式:800萬樣本的實體標記 43
3.2.1 問題 45
3.2.2 解決方案 45
3.2.3 討論 50
3.2.4 練習 50
3.3 集合通信模式 51
3.3.1 問題:當參數服務器成為瓶頸時提高性能 52
3.3.2 解決方案 52
3.3.3 討論 58
3.3.4 練習 59
3.4 彈性與容錯模式 59
3.4.1 問題:使用有限的計算資源處理訓練時的意外故障 59
3.4.2 解決方案 60
3.4.3 討論 62
3.4.4 練習 63
3.5 習題答案 63
3.6 本章小結 64
第4章 模型服務模式 65
4.1 模型服務的基本概念 66
4.2 副本服務模式:處理不斷增長的服務請求 67
4.2.1 問題 69
4.2.2 解決方案 69
4.2.3 討論 72
4.2.4 練習 72
4.3 分片服務模式 73
4.3.1 問題:處理包含高分辨率視頻的大型模型服務請求 74
4.3.2 解決方案 74
4.3.3 討論 76
4.3.4 練習 77
4.4 事件驅動處理模式 77
4.4.1 問題:基於事件響應模型服務請求 79
4.4.2 解決方案 80
4.4.3 討論 84
4.4.4 練習 85
4.5 習題答案 85
4.6 本章小結 86
第5章 工作流模式 87
5.1 工作流的基本概念 88
5.2 扇入和扇出模式:組成復雜的機器學習工作流 91
5.2.1 問題 92
5.2.2 解決方案 93
5.2.3 討論 97
5.2.4 練習 98
5.3 同步和異步模式:通過並發加速工作流 98
5.3.1 問題 99
5.3.2 解決方案 99
5.3.3 討論 102
5.3.4 練習 103
5.4 步驟記憶化模式:通過使用緩存跳過重復冗餘的步驟 103
5.4.1 問題 105
5.4.2 解決方案 105
5.4.3 討論 107
5.4.4 練習 108
5.5 習題答案 108
5.6 本章小結 109
第6章 運維模式 111
6.1 機器學習系統中運維的基本概念 112
6.2 調度模式:在共享集群中有效分配資源 113
6.2.1 問題 114
6.2.2 解決方案 115
6.2.3 討論 121
6.2.4 練習 122
6.3 元數據模式:合理處理故障,最小化對用戶的負面影響 122
6.3.1 問題 123
6.3.2 解決方案 124
6.3.3 討論 128
6.3.4 練習 129
6.4 習題答案 129
6.5 本章小結 129
第III部分 構建分佈式機器學習工作流
第7章 項目概述及系統架構 133
7.1 項目概況 134
7.1.1 項目背景 134
7.1.2 系統組件 135
7.2 數據攝取 135
7.2.1 問題 137
7.2.2 解決方案 137
7.2.3 練習 139
7.3 模型訓練 140
7.3.1 問題 140
7.3.2 解決方案 140
7.3.3 練習 142
7.4 模型服務 142
7.4.1 問題 143
7.4.2 解決方案 143
7.4.3 練習 145
7.5 端到端工作流 145
7.5.1 存在的問題 145
7.5.2 解決方案 146
7.5.3 練習 148
7.6 習題答案 148
7.7 本章小結 149
第8章 相關技術概述 151
8.1 TensorFlow:機器學習框架 151
8.1.1 基礎知識 152
8.1.2 練習 158
8.2 Kubernetes:分佈式容器編排系統 158
8.2.1 基礎知識 159
8.2.2 練習 165
8.3 Kubeflow:在Kubernetes上運行機器學習工作負載 165
8.3.1 基礎知識 168
8.3.2 練習 172
8.4 Argo Workflows:容器原生工作流引擎 173
8.4.1 基礎知識 174
8.4.2 練習 182
8.5 習題答案 182
8.6 本章小結 183
第9章 完整實現 185
9.1 數據攝取 185
9.1.1 單節點數據流水線 187
9.1.2 分佈式數據流水線 188
9.2 模型訓練 189
9.2.1 模型定義和單節點訓練 190
9.2.2 分佈式模型訓練 193
9.2.3 模型選擇 198
9.3 模型服務 200
9.3.1 單服務器模型推理 200
9.3.2 副本模型服務器 205
9.4 端到端工作流 208
9.4.1 順序步驟 208
9.4.2 步驟記憶化 213
9.5 本章小結 216



