GPGPU深度學習與大語言模型實戰

洪洲,張尉東,吳超

  • 出版商: 電子工業
  • 出版日期: 2025-10-01
  • 售價: $768
  • 語言: 簡體中文
  • 頁數: 360
  • ISBN: 7121513994
  • ISBN-13: 9787121513992
  • 相關分類: CUDA
  • 下單後立即進貨 (約4週~6週)

商品描述

本書系統構建了深度學習理論與應用的全棧知識體系,從數學基礎與機器學習核心原理出 發,貫通線性代數、概率統計等關鍵數學工具,夯實算法研發的理論根基。面向新一代通用圖 形處理器(GPGPU)硬件架構,深入解析專用編程語言的語法設計與高效編程實踐,剖析主流 訓練與推理框架的底層機制,並結合壁仞科技GPGPU平臺,提供針對性的適配與性能優化方案。 通過計算機視覺與自然語言處理領域的經典案例,展示傳統算法在異構計算架構下的性能躍 遷。聚焦大模型技術前沿,系統闡述大語言模型(LLM)、視覺語言模型(VLM)及混合專家模 型(MoE)的架構演進,結合DeepSeek-V3、Mixtral 8×7B等代表性模型在壁仞GPGPU上的優化 實踐,揭示硬件加速對千億參數模型訓練與推理的顯著增益。進一步拓展至人工智能(AI)與 科學計算融合前沿,通過物理信息神經網絡、量子系統模擬、微分方程求解等跨學科應用,展 現GPGPU在高性能計算中的核心優勢。 全書融合理論推導與工程實踐,既涵蓋算法原理的嚴謹分析,又提供可復現的芯片級優化 指南,為AI工程師與研究人員提供從模型設計到硬件加速的端到端技術路徑。

目錄大綱

第 1 章 數學與機器學習基礎 / 1
1.1 線性代數 / 1
1.1.1 標量、向量、矩陣與張量 / 1
1.1.2 向量與矩陣的基本性質和運算 / 2
1.1.3 鏈式法則 / 7
1.2 概率論與數理統計 / 11
1.2.1 概率與常用分布 / 11
1.2.2 抽樣方法 / 15
1.2.3 參數估計 / 18
1.3 數值最優化方法 / 19
1.3.1 最優化問題 / 19
1.3.2 梯度下降法與牛頓型方法 / 21
1.4 統計學習方法 / 25
1.4.1 多層感知機 / 25
1.4.2 決策樹 / 25
1.4.3 貝葉斯分類器 / 28
1.4.4 支持向量機 / 30
1.4.5 集成算法 / 34
1.4.6 隱馬爾可夫模型 / 36
1.5 深度學習方法 / 37
1.5.1 人工神經網絡 / 37
1.5.2 卷積神經網絡 / 38
1.5.3 神經架構搜索 / 44
參考文獻 / 45VIII GPGPU 深度學習與大語言模型實戰
第 2 章 BIRENSUPA 編程模型 / 46
2.1 從 CPU 到 GPU / 46
2.1.1 CPU / 46
2.1.2 GPU / 46
2.1.3 GPGPU / 47
2.1.4 GPU 與 CPU 工作原理的區別 / 47
2.2 BIRENSUPA 概述 / 48
2.2.1 BRCC / 49
2.2.2 BRCC 編譯示例 / 50
2.3 硬件平臺抽象 / 53
2.4 核函數 / 54
2.5 超大核函數 / 55
2.5.1 共享內存差異 / 57
2.5.2 線程同步方式差異 / 58
2.6 線程層次結構 / 58
2.6.1 線程塊與線程網格 / 58
2.6.2 線程層次映射函數 / 59
2.7 內存層次結構 / 61
2.8 異構編程 / 63
2.9 基本存儲系統 / 64
2.9.1 統一虛擬尋址 / 65
2.9.2 分配設備內存 / 65
2.9.3 分配主機內存 / 66
2.9.4 內存拷貝 / 67
2.10 UMA 和 NUMA 存儲類型 / 68
2.10.1 內存布局 / 68
2.10.2 不同 UMA 架構類型 / 69
2.10.3 UMA 多設備存儲 / 70
2.10.4 NUMA 內存 API / 70
2.11 張量模式 / 72
2.11.1 張量類型 / 72
2.11.2 張量主機端函數 / 75
2.11.3 張量設備端函數 / 76
2.12 流和事件編程 / 77
2.12.1 創建和銷毀流 / 77
2.12.2 默認流 / 79
2.12.3 事件 / 79
2.12.4 流中的顯式同步 / 80
2.12.5 流中的隱式同步 / 81
2.12.6 流中的主機函數回調 / 81
2.12.7 流的優先級 / 82
2.12.8 流和事件的約束 / 82
2.12.9 改變流的 SPC 掩碼 / 82
2.13 BIRENSUPA 任務圖 / 84
2.13.1 任務圖節點類型 / 84
2.13.2 使用節點 API 創建任務圖 / 85
2.14 協作組 / 87
2.14.1 基本線程組同步和線程束級數據交換 / 87
2.14.2 用戶自定義線程組 / 88
2.14.3 線程塊組 / 88
2.14.4 分塊(線程束和子線程束)組 / 88
2.14.5 合並組 / 89
2.14.6 線程網格組 / 89
2.15 多 GPU 編程 / 89
2.15.1 壁仞多設備拓撲結構 / 90
2.15.2 多設備編程基礎 / 92
第 3 章 深度學習框架 / 95
3.1 訓練框架 BR_PyTorch / 95
3.1.1 PyTorch 訓練流程簡介 / 96
3.1.2 壁仞 PyTorch 插件 / 98
3.1.3 快速使用 BR_PyTorch / 99
3.1.4 BR_PyTorch 性能分析工具 / 102
3.1.5 BR_PyTorch 分布式訓練 / 103
3.2 分布式訓練框架 Megatron-LM / 108
3.2.1 Megatron-LM 簡介 / 108
3.2.2 分布式訓練策略 / 109
3.2.3 壁仞 Megatron-LM 插件 / 112
3.3 推理框架 suInfer-LLM / 113
3.3.1 大語言模型推理介紹 / 113
3.3.2 suInfer-LLM 簡介 / 116
3.3.3 suInfer-LLM 架構及使用方法 / 117
3.4 推理框架 / 118
3.4.1 vLLM 介紹 / 118
3.4.2 核心技術和原理 / 119
3.4.3 性能表現 / 120
3.4.4 適配原理 / 121
3.4.5 使用方法 / 121
參考文獻 / 124
第 4 章 傳統計算機視覺與自然語言處理 / 125
4.1 圖像分類 / 125
4.1.1 背景介紹 / 125
4.1.2 基於傳統方法的圖像分類 / 126
4.1.3 基於深度學習的圖像分類 / 137
4.1.4 圖像分類子任務 / 147
4.1.5 E?cientNetV2 模型訓練 / 149
4.2 目標檢測 / 156
4.2.1 背景介紹 / 156
4.2.2 基於手工特征的目標檢測 / 167
4.2.3 基於深度學習的目標檢測 / 168
4.2.4 目標檢測中的難點及最新進展 / 175
4.2.5 目標檢測的挑戰 / 182
4.2.6 YOLOv8 模型訓練 / 184
4.3 自然語言處理 / 189
4.3.1 背景介紹 / 189
4.3.2 研究內容 / 190
4.3.3 自然語言處理的基本範式 / 192
4.3.4 分詞和詞嵌入 / 196
4.3.5 循環神經網絡和其他序列模型 / 197
4.3.6 BERT 模型訓練 / 201
參考文獻 / 204
第 5 章 大語言模型 / 218
5.1 LLM 發展歷程 / 218
5.2 擴展定律簡介 / 219
5.3 LLM 構建 / 221
5.3.1 LLM 結構 / 221
5.3.2 LLM 組件 / 223
5.4 LLM 訓練 / 240
5.4.1 訓練數據集 / 240
5.4.2 模型概述及組網 / 240
5.4.3 模型訓練 / 252
5.4.4 精度數據分析 / 261
5.5 LLM 推理 / 261
5.5.1 環境配置 / 261
5.5.2 模型準備 / 262
5.5.3 模型導出 / 263
5.5.4 模型推理 / 264
參考文獻 / 270
第 6 章 視覺語言模型 / 271
6.1 ViT 技術介紹 / 272
6.1.1 圖像嵌入 / 273
6.1.2 Transformer 模型 / 273
6.2 對比學習與跨模態理解 / 274
6.2.1 CLIP 訓練和推理 / 274
6.2.2 CLIP 優缺點 / 275
6.3 LLaVA / 276
6.3.1 訓練數據集 / 277
6.3.2 模型結構 / 277
6.3.3 訓練方法 / 278
6.3.4 LLaVA-1.5 / 279
6.4 VLM 訓練 / 280
6.4.1 微調數據集 / 280
6.4.2 模型結構及組網 / 280
6.4.3 訓練集群及分布式策略 / 284
6.4.4 啟動命令及輸出日誌 / 284
參考文獻 / 287
第 7 章 混合專家模型 / 289
7.1 MoE 發展簡介 / 290
7.2 MoE 訓練優化 / 293
7.2.1 詞元負載均衡 / 293
7.2.2 專家並行化 / 294
7.3 DeepSeek-V3 / 296
7.3.1 模型結構 / 296
7.3.2 基礎設施及框架 / 298
7.4 MoE 訓練 / 301
7.4.1 訓練數據集 / 301
7.4.2 模型概述及組網 / 301
7.4.3 訓練 / 303
參考文獻 / 306
第 8 章 科學計算與 AI / 308
8.1 物理導引神經網絡模型 / 308
8.1.1 背景介紹 / 310
8.1.2 伯格斯方程 / 311
8.1.3 PyTorch 自動微分求解伯格斯方程 / 312
8.1.4 BIRENSUPA 反向求解伯格斯方程 / 316
8.1.5 流體自由面模擬 / 321
8.2 量子計算電路模擬器 / 323
8.2.1 量子計算背景 / 324
8.2.2 經典量子混合算法 / 326
8.2.3 適配量子 AI 計算軟件框架 / 327
8.3 有限差分法求解微分方程 / 333
8.3.1 熱傳導問題:二維笛卡兒坐標系擴散方程 / 333
8.3.2 熱傳導問題的有限差分法求解 / 334
8.3.3 使用壁仞 GPGPU 的熱傳導方程有限差分法求解 / 335
參考文獻 / 339
附錄 縮略語表 / 341