DeepSeek 核心技術揭秘

盧菁,戴誌仕

  • 出版商: 電子工業
  • 出版日期: 2025-05-01
  • 售價: $474
  • 貴賓價: 9.5$450
  • 語言: 簡體中文
  • ISBN: 7121501244
  • ISBN-13: 9787121501241
  • 立即出貨

買這商品的人也買了...

DeepSeek簡體2書75折 詳見活動內容 »

商品描述

本書深入剖析DeepSeek的核心技術,介紹了提示詞的原理與高級應用,對DeepSeek的模型架構、訓練框架,以及MoE優化、MLA、思維鏈、GRPO算法、獎勵模型等技術細節進行了探討。此外,本書對DeepSeek給人工智能行業格局帶來的影響及DeepSeek的開源貢獻進行了分析,對大模型的發展趨勢進行了展望。

本書適合人工智能研究人員、開發人員及大模型相關技術愛好者閱讀,也為關註人工智能領域技術發展的從業人員提供了參考與借鑒。

作者簡介

盧菁,北京科技大學博士,北京大學博士後,B站、視頻號優秀科技博主。曾任職於騰訊、愛奇藝等知名因特網公司,主要從事人工智能技術的應用和研發工作,主要研究方向為大模型、多模態、自然語言處理、知識圖譜、推薦系統等。著有《速通機器學習》《速通深度學習數學基礎》。

戴誌仕,資深AI架構師,“寒武紀人工智能”公眾號的創立者。2024年CCF國際AIOps挑戰賽優秀獎獲得者。擁有十餘年人工智能算法研究和產業落地經驗,成功實施過多個人工智能項目。

目錄大綱

第 1 章 技驚四座的 DeepSeek / 1
1.1 石破天驚的產品發布 / 1
1.2 DeepSeek-V3 和 DeepSeek-R1 可以做什麼 / 4
1.3 DeepSeek-V3 的技術突破與創新 / 7
1.3.1 架構創新 / 8
1.3.2 訓練優化 / 9
1.3.3 推理與部署優化 / 10
1.3.4 效果的全面提升 / 10
1.4 DeepSeek-R 系列的技術突破與創新 / 10
1.4.1 DeepSeek-R1-Zero 的技術突破與創新 / 11
1.4.2 DeepSeek-R1 的技術突破與創新 / 12
1.4.3 推理能力的提升 / 12
1.5 DeepSeek 發布的模型家族 / 14
1.5.1 通用語言大模型 / 16
1.5.2 多模態大模型 / 17
1.5.3 代碼大模型 / 18
1.5.4 數學推理大模型 / 18
1.5.5 混合專家模型 / 19
1.5.6 MoE 專用微調模型 / 19
1.5.7 基於 LLaMA 架構的模型 / 20
第 2 章 提示詞的原理與應用 / 21
2.1 推理模型與通用模型 / 21
2.2 提示工程 / 29
2.2.1 提示詞的類型 / 30
2.2.2 提示詞的基本元素 / 33
2.2.3 有效的提示詞 / 37
2.2.4 正確地表達需求 / 38
2.3 提示詞高級技巧:提示詞鏈 / 39
2.3.1 提示詞鏈的設計過程 / 39
2.3.2 提示詞鏈的應用案例 / 40
第3章 DeepSeek-V3 技術剖析 / 43
3.1 DeepSeek 的模型架構 / 43
3.1.1 MoE 的起源與發展 / 44
3.1.2 DeepSeek-V3 的 MoE 優化 / 50
3.1.3 DeepSeek-V3 的 MoE 架構的優勢 / 54
3.1.4 DeepSeek-V3 的 MLA / 54
3.1.5 DeepSeek-V3 的 MTP / 59
3.2 DeepSeek 的訓練框架 / 62
3.2.1 常見的並行策略 / 62
3.2.2 DeepSeek 的並行策略 / 67
3.2.3 DeepSeek 的 FP8 混合精度訓練 / 73
3.3 DeepSeek 的推理階段優化 / 77
3.3.1 PD 分離架構 / 77
3.3.2 DeepSeek 的預填充階段優化 / 78
3.3.3 DeepSeek 的解碼階段優化 / 78
3.4 DeepSeek 的後訓練優化 / 79
3.5 小結 / 80
第 4 章 DeepSeek-R1 技術剖析 / 81
4.1 預備知識 / 81
4.1.1 思維鏈 / 81
4.1.2 有監督微調 / 82
4.1.3 強化學習 / 83
4.2 DeepSeek 對訓練推理模型的探索 / 88
4.3 DeepSeek-R1-Zero 的訓練 / 88
4.3.1 GRPO 算法 / 91
4.3.2 獎勵模型 / 94
4.4 DeepSeek-R1 的訓練 / 95
4.4.1 階段一訓練 / 96
4.4.2 階段二訓練 / 97
4.4.3 推理能力的蒸餾 / 99
4.5 小結 / 100
第5章 DeepSeek 的影響與成功啟示 / 103
5.1 DeepSeek 對 AI 格局的影響 / 103
5.1.1 打破硬件依賴的迷思 / 103
5.1.2 對英偉達 CUDA 護城河的沖擊 / 104
5.1.3 對大模型技術路線的重新思考 / 104
5.1.4 投資風向的改變 / 105
5.1.5 對商業模式的沖擊 / 105
5.1.6 對創新文化的沖擊 / 106
5.1.7 對地緣政治的沖擊 / 106
5.2 DeepSeek 的成功啟示 / 106
5.2.1 領導者的技術直覺 / 107
5.2.2 長期主義 / 107
5.2.3 極致的工程優化 / 107
5.2.4 對資源的高效利用 / 108
5.2.5 團隊的創新文化 / 108
第 6 章 DeepSeek 開源技術剖析 / 109
6.1 DeepSeek 的“開源周” / 109
6.2 FlashMLA:減少顯存消耗 / 110
6.2.1 項目特點 / 111
6.2.2 應用場景 / 112
6.2.3 技術剖析 / 113
6.2.4 影響與展望 / 114
6.3 DeepEP:通信系統的優化 / 115
6.3.1 項目特點 / 115
6.3.2 應用場景 / 116
6.3.3 技術剖析 / 117
6.3.4 影響與展望 / 119
6.4 DeepGEMM:讓矩陣乘法起飛 / 120
6.4.1 項目特點 / 121
6.4.2 應用場景 / 123
6.4.3 技術剖析 / 124
6.4.4 影響與展望 / 126
6.5 DualPipe 與 EPLB:集群並行計算優化 / 127
6.5.1 項目特點 / 128
6.5.2 技術剖析 / 130
6.5.3 影響與展望 / 133
6.6 3FS:為 AI 加速 / 134
6.6.1 項目特點 / 134
6.6.2 應用場景 / 136
6.6.3 技術剖析 / 137
6.6.4 影響與展望 / 139
第 7 章 大模型未來發展展望 / 143
7.1 MoE 的未來 / 143
7.1.1 專家數量與規模的優化 / 143
7.1.2 MoE 分布式訓練工具進一步完善 / 143
7.1.3 門控算法的改進 / 144
7.1.4 跨領域應用與融合 / 144
7.2 MLA 的未來 / 144
7.3 大模型訓練方法的發展趨勢 / 145
7.3.1 三階段訓練法的普及 / 145
7.3.2 混合精度訓練的推廣 / 145
7.3.3 並行策略的優化 / 145
7.4 推理部署的發展趨勢 / 146
7.4.1 PD 分離模式的普及 / 146
7.4.2 集群化推理的優化與推理加速技術研究 / 146
7.5 GPU 硬件的未來發展 / 146
7.5.1 軟硬件協同升級 / 146
7.5.2 存儲與通信能力的優化 / 147
7.5.3 低精度計算的支持 / 147
7.5.4 異構計算的支持 / 147
7.6 從 LLaMA 4 看推理模型的發展 / 148
7.6.1 LLaMA 4 簡介 / 148
7.6.2 LLaMA 4 的核心技術細節 / 150