圖解DeepSeek技術 簽名版

[沙特] 傑伊·阿拉馬爾(Jay Alammar) [荷] 馬爾滕·格魯滕多斯特(Maarten Grootendorst)

  • 出版商: 人民郵電
  • 出版日期: 2025-06-01
  • 售價: $359
  • 語言: 簡體中文
  • 頁數: 94
  • ISBN: 7115674612
  • ISBN-13: 9787115674616
  • 相關分類: Reinforcement
  • 下單後立即進貨 (約2週~3週)

  • 圖解DeepSeek技術 簽名版-preview-1
  • 圖解DeepSeek技術 簽名版-preview-2
圖解DeepSeek技術 簽名版-preview-1

商品描述

本書以通俗易懂、大量圖解的方式剖析了DeepSeek的底層技術。

全書分為3章和附錄,第1章詳細分析了推理大模型的範式轉變,即從“訓練時計算”到“測試時計算”;第2章解讀了DeepSeek-R1的架構——混合專家(MoE);第3章展示了DeepSeek-R1詳細的訓練過程及核心技術,涵蓋基於GRPO的強化學習等;附錄分享了DeepSeek開源周活動。

本書適合大模型從業人員和對大模型底層技術感興趣的讀者。書中通過豐富的圖解將復雜的技術解釋得簡單、清晰、通透,是學習大模型技術難得一見的參考書。

作者簡介

Jay Alammar(傑伊·阿拉馬爾)

Cohere總監兼工程研究員,知名大模型技術博客Language Models & Co作者,DeepLearning.AI和Udacity熱門機器學習和自然語言處理課程作者。

Maarten Grootendorst(馬爾滕·格魯滕多斯特)

IKNL(荷蘭綜合癌癥中心)高級臨床數據科學家,知名大模型技術博客博主,BERTopic等開源大模型軟件包作者(下載量超過百萬次),DeepLearning.AI和Udacity課程作者。

Jay & Maarten撰寫的圖解系列文章廣受贊譽,累計吸引了數百萬專業讀者的目光。其中,Jay 的“The Illustrated Transformer”“The Illustrated DeepSeek-R1”、Maarten的“A Visual Guide to Reasoning LLMs”在全網熱度極高。

Jay & Maarten的第一部作品《圖解大模型:生成式AI原理與實戰》(Hands-On Large Language Models)是業內廣受贊譽的經典。《圖解DeepSeek技術》是Jay & Maarten的第二部作品,人民郵電出版社圖靈全球獨家發布,是解讀DeepSeek原理與訓練的寶貴讀物。

李博傑

智能體初創公司PINE AI聯合創始人、首席科學家。曾任華為計算機網絡與協議實驗室副首席專家,入選華為首批“天才少年”項目。2019年獲中國科學技術大學與微軟亞洲研究院聯合培養博士學位,曾獲ACM中國優秀博士學位論文獎和微軟學者獎學金。在SIGCOMM、SOSP、NSDI、USENIX ATC和PLDI等頂級會議上發表多篇論文。

孟佳穎

中國科學技術大學博士。現任北京中關村實驗室助理研究員,主要從事網絡協議棧的漏洞挖掘與風險分析技術的研究工作。

目錄大綱

譯者序

前言

第 1 章 測試時計算

1.1 什麼是推理大模型 1

1.2 什麼是訓練時計算 3

1.3 什麼是測試時計算 7

1.3.1 縮放定律 10

1.3.2 測試時計算的分類 12

1.4 基於驗證器的搜索 16

1.4.1 多數投票法 17

1.4.2 Best-of-N 采樣 17

1.4.3 基於過程獎勵模型的束搜索 20

1.4.4 蒙特卡洛樹搜索 21

1.5 調整提議分布 24

1.5.1 提示工程 25

1.5.2 STaR 方法 26

1.6 小結 28

1.7 延伸閱讀 29

第 2 章 架構設計 31

2.1 稠密層 31

2.2 MoE 層 34

2.2.1 專家機制 35

2.2.2 路由機制 40

2.2.3 DeepSeekMoE 44

2.3 小結 50

第 3 章 DeepSeek-R1 訓練方案 51

3.1 回顧:大模型的訓練原理 51

3.2 DeepSeek-R1-Zero 的推理能力 55

3.2.1 示例:推理問題的自動驗證 57

3.2.2 DeepSeek-R1-Zero 的完整訓練過程 62

3.3 DeepSeek-V3 的效率優化策略 64

3.3.1 多頭潛在註意力機制 64

3.3.2 混合精度訓練 66

3.3.3 多詞元預測 70

3.4 構建 DeepSeek-R1 72

3.5 通過 DeepSeek-R1 蒸餾推理能力 77

3.6 未成功的嘗試 78

3.7 基於 GRPO 的強化學習 78

3.7.1 獎勵值與優勢值 79

3.7.2 KL 散度懲罰項 83

3.7.3 GRPO 目標函數 85

3.7.4 GRPO 算法 86

3.7.5 GRPO 參考實現 87

3.8 小結 87

附錄 DeepSeek 開源周 89