百面大模型

包夢蛟 劉如日 朱俊達

  • 出版商: 人民郵電
  • 出版日期: 2025-05-01
  • 售價: $659
  • 語言: 簡體中文
  • 頁數: 370
  • ISBN: 7115662215
  • ISBN-13: 9787115662217
  • 相關分類: LangChain
  • 下單後立即進貨 (約4週~6週)

  • 百面大模型-preview-1
  • 百面大模型-preview-2
百面大模型-preview-1

相關主題

商品描述

本書收錄了約百道大模型工程師常見的面試題目和解答,系統、全面地介紹了與大模型相關的技術,涵蓋語義表達、數據預處理、預訓練、對齊、垂類微調、組件、評估、架構、檢索增強生成(RAG)、智能體、PEFT(參數高效微調),以及訓練與推理等內容。書中通過豐富的實例、圖表及代碼講解,將復雜概念闡釋得通俗易懂,是大模型領域的一本不可多得的實用指南。本書適合對大模型和Transformer等技術感興趣的學生、研究者和工程師閱讀和參考。

作者簡介

包夢蛟,北京航空航天大學碩士,美團北鬥計劃高級算法專家,負責大眾點評大模型應用落地開發,曾獲得Kaggle Grandmaster稱號、KDD CUP 2024冠軍,業餘時間撰寫知乎專欄和公眾號“包包算法筆記”,全網關註數5萬+。

劉如日,北京航空航天大學碩士,研究興趣為機器學習與自然語言處理。曾以第一作者身份發表頂會論文並多次在頂會競賽中取得冠軍等優異成績。現於美團從事大模型相關技術研究與產業應用。

朱俊達,北京航空航天大學碩士,研究興趣為大模型架構優化方向,有多家大廠實習經歷,發表了多篇大模型相關論文。

目錄大綱

第 1章 語義表達 1

1.1 詞向量與語義信息 1

1.1.1 稀疏詞向量 2

1.1.2 分佈式語義假設 2

1.1.3 稠密詞向量 3

1.2 溢出詞表詞的處理方法 6

1.3 分詞方法的區別與影響 11

1.3.1 詞(word) 11

1.3.2 子詞(subword) 12

1.3.3 字符(char) 16

1.4 詞向量與語義相似度 17

1.5 構建句子向量 19

1.6 預訓練的位置編碼 22

1.7 BERT的不同嵌入類型 25

1.8 大模型語義建模的典型架構 27

第 2章 大模型的數據 31

2.1 大模型訓練開源數據集 31

2.2 大模型不同訓練環節與數據量 35

2.3 大模型數據預處理 39

2.3.1 數據的質量 39

2.3.2 數據的多樣性 40

2.4 大模型擴展法則 43

2.5 持續預訓練與災難性遺忘 47

2.6 大模型指令微調的數據篩選 49

第3章 大模型的預訓練 53

3.1 預訓練與監督微調辨析 53

3.2 大模型的涌現能力 56

3.3 大模型預訓練階段的實驗提效方法 58

3.4 大模型開發流程三階段:預訓練、監督微調和強化學習 61

3.4.1 大模型預訓練 61

3.4.2 大模型的監督微調 61

3.4.3 大模型的強化學習 62

3.5 大模型訓練顯存計算與優化 63

3.6 大模型訓練通信開銷計算 75

3.6.1 集合通信原語 76

3.6.2 數據並行的工作原理和通信開銷計算 80

3.6.3 張量並行的工作原理和通信開銷計算 81

3.6.4 流水線並行的工作原理和通信開銷計算 84

3.6.5 使用ZeRO優化技術時的通信開銷計算 85

第4章 大模型的對齊 87

4.1 對齊數據構造 87

4.2 PPO算法 88

4.3 獎勵模型訓練 96

4.4 PPO穩定訓練的方法 99

4.4.1 設計合理的評估指標對PPO訓練過程進行監控 100

4.4.2 對損失和梯度進行標準化和裁剪 101

4.4.3 改進損失函數 102

4.4.4 優化評論家模型和演員模型的初始化方式 102

4.5 DPO算法 103

4.6 DPO與PPO辨析 105

4.6.1 計算資源方面:DPO所需計算資源比PPO少 106

4.6.2 訓練穩定性方面:DPO的訓練穩定性高於PPO 106

4.6.3 效果方面:PPO的泛化能力優於DPO 106

4.7 其他偏好對齊方法綜述 108

4.7.1 PPO類 108

4.7.2 DPO類 113

4.7.3 非強化學習類 117

4.7.4 數據類 119

4.8 對齊訓練穩定性監測 119

4.8.1 監督微調階段 119

4.8.2 強化學習對齊訓練階段 121

4.9 大模型後訓練環節辨析 122

第5章 大模型的垂類微調 124

5.1 (垂類)監督微調 124

5.2 後訓練的詞表擴充 128

5.3 有效的長度外推方法 130

5.4 大模型微調的損失函數 140

5.4.1 Cross Entropy Loss(交叉熵損失) 140

5.4.2 z-loss 141

5.4.3 EMO loss 142

5.5 大模型知識註入方法 144

5.5.1 模型的繼續預訓練與監督微調 144

5.5.2 檢索增強生成 145

第6章 大模型的組件 147

6.1 Transformer的架構 147

6.2 註意力分數計算細節 153

6.3 詞元化算法的區別與特點 156

6.3.1 基於單詞的詞元化 157

6.3.2 基於字符的詞元化 157

6.3.3 基於子詞的詞元化 158

6.4 RoPE 160

6.5 ALiBi 165

6.5.1 ALiBi的工作原理 166

6.5.2 ALiBi的外推能力實驗 167

6.5.3 ALiBi的訓練推理效率實驗 168

6.5.4 ALiBi的代碼實現 169

6.6 Sparse Attention 169

6.7 Linear Attention 173

6.8 多頭註意力機制及其優化(MHA、MQA 和GQA) 175

6.8.1 多頭註意力機制的代碼實現 175

6.8.2 Transformer解碼器在解碼過程中的性能瓶頸 178

6.8.3 多查詢註意力和分組查詢註意力的工作原理 179

6.9 各種歸一化方法 181

6.9.1 歸一化方法的作用 181

6.9.2 BatchNorm的工作原理 182

6.9.3 LayerNorm的工作原理 183

6.9.4 RMSNorm的工作原理 184

6.10 歸一化模塊位置的影響——PostNorm和PreNorm 184

6.10.1 PostNorm和PreNorm的工作原理 185

6.10.2 PostNorm和PreNorm的差異 185

6.11 Dropout機制 187

6.11.1 Dropout的實現流程和原理 188

6.11.2 避免訓練和推理時的期望偏移 188

6.11.3 避免訓練和推理時的方差偏移 189

6.12 模型訓練參數初始化方法概述 190

6.12.1 固定值初始化 191

6.12.2 預訓練初始化 191

6.12.3 基於固定方差的初始化 191

6.12.4 基於方差縮放的初始化 191

第7章 大模型的評估 194

7.1 大模型的評測榜單與內容 194

7.2 大模型評測的原則 199

7.3 大模型的修復方法 200

7.3.1 badcase定義 201

7.3.2 badcase修復思路 201

7.3.3 實踐解法 202

7.4 生成式模型的評測指標 203

7.5 大模型的自動化評估 209

7.6 大模型的對抗性測試 211

7.7 大模型的備案流程 212

第8章 大模型的架構 217

8.1 因果解碼器架構成為主流的原因 217

8.2 大模型的集成融合方法 220

8.3 MoE 226

第9章 檢索增強生成 233

9.1 RAG的組成與評估 233

9.2 RAG中的召回方法 237

9.3 RAG與重排 241

9.4 RAG的工程化問題 244

第 10章 大模型智能體 248

10.1 智能體的組成 248

10.2 智能體的規劃能力 251

10.3 智能體的記憶模塊 255

10.4 智能體的工具調用 257

10.5 XAgent框架 263

10.6 AutoGen框架 266

10.7 智能體框架實踐 269

第 11章 大模型PEFT 273

11.1 LoRA 273

11.1.1 LoRA的設計思路 273

11.1.2 LoRA的具體實現流程 274

11.2 PEFT方法概述 279

11.3 PEFT與全參數微調 286

第 12章 大模型的訓練與推理 288

12.1 大模型解碼與採樣方法綜述 288

12.2 大模型生成參數及其含義 292

12.3 大模型訓練與推理預填充階段的加速方法——FlashAttention 297

12.4 大模型專家並行訓練 317

12.5 大模型推理加速——PagedAttention 321

12.5.1 為什麽對KV緩存的內存管理效率是影響推理系統吞吐量的關鍵因素 322

12.5.2 PagedAttention如何提高對KV緩存的內存管理效率 325

12.6 大模型量化的細節 327

12.7 大模型多維並行化訓練策略 328

第 13章 DeepSeek 335

13.1 DeepSeek系列模型架構創新 335

13.1.1 大數量小尺寸的混合專家設計 337

13.1.2 MLA 343

13.1.3 多詞元預測 351

13.2 DeepSeek-R1訓練流程 353

參考文獻 357