DeepSeek 硬核技術解讀
劉丹 尹俊希 楊院伶
- 出版商: 機械工業
- 出版日期: 2025-11-01
- 售價: $594
- 語言: 簡體中文
- 頁數: 242
- ISBN: 7111792289
- ISBN-13: 9787111792284
-
相關分類:
Large language model
下單後立即進貨 (約4週~6週)
相關主題
商品描述
這是一本系統剖析DeepSeek系列大模型技術體系與實踐路徑的專著。本書立足於作者在大模型研發一線的深厚積累,結合深度學習、強化學習、分布式系統與模型優化等多領域知識,全面闡述 DeepSeek在模型架構、訓練推理、基礎設施及數據工程等方面的核心突破與工程實踐。全書兼具理論嚴謹性與實踐指導性,旨在幫助AI研究者、工程師和技術決策者深入理解當代大模型的關鍵技術,掌握高效、低成本構建和部署 AI系統的方法。本書分為兩部分。 部分 DeepSeek學習前置知識( ~5章)從DeepSeek的模型概述和重要突破切入,系統介紹經典Transformer架構、強化學習基礎、大語言模型中的RLHF和量化技術,以及分布式訓練的基礎知識,為讀者奠定堅實的理論和技術基礎。 第二部分 DeepSeek核心技術(第6~11章)首先,深入解析DeepSeek的模型架構創新,包括 MoE、MLA與分詞器設計,探討跨模態對齊、負載均衡、基礎設施優化及數據處理等關鍵議題,揭示其在高性能、低資源消耗背後的系統級工程實現。然後,聚焦DeepSeek V3、VL2及開源推理模型的訓練邏輯、推理及優化,涵蓋訓練策略、超參數設計、數據構建以及Prefill、Decode等推理階段的深度優化,為構建高效、可擴展的AI系統提供完整方法論和實戰參考。本書不僅透徹解讀技術報告, 重視將前沿理論與工業實踐相結合,幫助讀者理解AI系統構建的本質規律與發展趨勢,為學術界和工業界提供了一條清晰、可覆現的高效能人工智能研發路徑
作者簡介
劉丹 大模型算法專家,面壁智能開源社區前技術負責人。先後在科大訊飛、面壁智能、國防科技大學等企業和高校擔任算法專家和技術負責人。精通模型架構、模型訓練、效率優化、前沿AI技術落地。熱衷於技術布道,開源的技術報告瀏覽量超過30萬人次,在GitHub上開源的項目獲得了超過30k的星標(Star)。擁有豐富的軍工級、重大企業級項目經驗,多個重大項目進入央視直播。
尹俊希 大模型領域 專家,在AI領域有多年的從業經驗,在學術界和工業界均有廣泛的影響力。曾任Facebook 工程師及OPPO北美人工智能研究院研究員。精通算法設計、模型架構、模型訓練及強化學習等前沿技術,尤其專註於大模型的技術探索與產業應用,近年來在該方向取得多項重要成果。
目錄大綱
前言
第一部分 DeepSeek學習前置知識
第1章 認識DeepSeek
1.1 DeepSeek的模型介紹
1.2 DeepSeek的重要突破
1.2.1 為開源做貢獻
1.2.2 性能大幅提升
1.2.3 成本顯著降低
1.2.4 算法創新
1.3 DeepSeek系列模型與其他大模型的介紹
1.3.1 DeepSeek系列模型
1.3.2 國外知名大模型
1.3.3 國內知名大模型
第2章 經典Transformer架構
2.1 Transformer架構的特點
2.2 Transformer的基本原理
2.2.1 分詞器
2.2.2 詞嵌入層
2.2.3 位置編碼模塊
2.2.4 自註意力模塊
2.2.5 多頭註意力模塊
2.2.6 前饋神經網絡模塊
2.2.7 殘差連接和層歸一化模塊
2.2.8 Encoder-Decoder架構
2.3 Transformer架構下的計算覆雜度
2.3.1 矩陣乘法的計算覆雜度
2.3.2 Transfomer架構下的計算量推導
2.4 Decoder模式下的推理與訓練
2.4.1 Mask矩陣詳解
2.4.2 具體訓練和推理
2.5 絕對位置編碼與相對位置編碼
2.5.1 絕對位置編碼
2.5.2 相對位置編碼
2.5.3 絕對位置編碼與相對位置編碼的對比
第3章 強化學習基礎
3.1 基礎概念
3.2 大語言模型中的RLHF
3.2.1 PPO
3.2.2 DPO
3.3 GRPO
3.4 大語言模型中的強化學習訓練數據格式
第4章 大語言模型量化
4.1 大語言模型精度基礎知識
4.2 量化基礎知識
4.2.1 線性量化
4.2.2 非線性量化
4.2.3 對稱量化
4.2.4 非對稱量化
4.2.5 量化感知訓練
4.2.6 訓練後量化
4.2.7 反量化
4.3 分組量化
4.3.1 分組量化的優點
4.3.2 分組量化的分組方式
4.4 影響量化後模型精度與速度的因素
4.5 常見的量化算法
4.5.1 LLM.INT8
4.5.2 AWQ
4.5.3 GPTQ
第5章 大語言模型分布式訓練基礎知識
5.1 通信原語
5.1.1 Reduce
5.1.2 Broadcast
5.1.3 Gather
5.1.4 Scatter
5.1.5 All-Reduce
5.1.6 All-Gather
5.2 數據並行
5.3 張量並行
5.3.1 張量並行——行並行
5.3.2 張量並行——列並行
5.3.3 行並行與列並行的差別
5.4 流水線並行
5.5 序列並行
5.6 “專家”並行
第二部分 DeepSeek核心技術
第6章 DeepSeek的模型架構
6.1 MoE架構
6.1.1 MoE的基本原理
6.1.2 MoE架構下計算量下降的分析
6.2 MLA架構
6.2.1 MHA
6.2.2 GQA
6.2.3 MLA
6.3 分詞器設計
6.3.1 BPE
6.3.2 BBPE
6.3.3 分詞器對模型性能的影響
6.4 DeepSeek VL2模型的原理
6.4.1 什麼是跨模態對齊
6.4.2 DeepSeek VL2模型對高清圖像的處理
第7章 MoE架構負載均衡技術詳解
7.1 負載均衡的意義與挑戰
7.1.1 卡間負載均衡
7.1.2 節點間負載均衡
7.1.3 MoE架構的“專家”負載均衡
7.2 DeepSeek V3的負載均衡
7.2.1 全局無損失負載均衡
7.2.2 序列間負載均衡
7.2.3 節點與卡間的通信負載均衡
7.3 DeepSeek V2的負載均衡
7.3.1 設備級負載均衡
7.3.2 “專家”級負載均衡
7.3.3 通信負載均衡
第8章 DeepSeek V3在基礎設施層的優化
8.1 混合精度訓練
8.1.1 為什麼要進行混合精度訓練
8.1.2 傳統的混合精度訓練框架
8.1.3 DeepSeek V3的混合精度訓練
8.2 Dualpipe
8.3 分塊量化計算
8.3.1 Tensor Core的FP8數值溢出
8.3.2 DeepSeek V3的分塊量化計算原理
第9章 數據處理與質量提升
9.1 預訓練數據工程
9.1.1 預訓練數據的一般處理流程
9.1.2 數據去重的常見算法
9.1.3 數據質量保障
9.1.4 預訓練數據的格式
9.1.5 DeepSeek預訓練數據的處理
9.2 SFT數據的構建與處理
9.2.1 SFT數據的一般格式和內容
9.2.2 基於教師模型的數據蒸餾
9.2.3 構建SFT數據的一般原則
9.3 RLHF數據進化
9.3.1 RLHF的基本作用與流程
9.3.2 RLHF數據的格式與構建
9.4 DeepSeek Math的數據處理
9.4.1 初始數據準備
9.4.2 數據預處理與召回
9.4.3 疊代優化
9.4.4 基準汙染過濾
9.4.5 關鍵結果與收斂判斷
9.4.6 SFT數據構建
第10章 DeepSeek的訓練邏輯
10.1 DeepSeek V3的訓練邏輯
10.1.1 FIM
10.1.2 MTP
10.1.3 超參數設計
10.1.4 SFT數據構
