從零構建大模型習題解答

[美]塞巴斯蒂安·拉施卡(Sebastian Raschka)

  • 從零構建大模型習題解答-preview-1
  • 從零構建大模型習題解答-preview-2
從零構建大模型習題解答-preview-1

商品描述

本書是《從零構建大模型》一書的配套習題,旨在通過多種練習和自我評估方式,幫助讀者鞏固和深化對大語言模型構建過程的理解。書中內容圍繞《從零構建大模型》一書的結構展開,覆蓋代碼和主要概念問題、批判性思維練習、單項選擇題以及答案解析等內容。建議讀者在閱讀《從零構建大模型》一書之前、之後以及復習階段使用本書,通過重復學習的方式鞏固知識,並將其與已有的知識體系相融合。

作者簡介

塞巴斯蒂安·拉施卡(Sebastian Raschka)

極具影響力的人工智能專家,GitHub項目LLMs-from-scratch的星標數達4萬。現在大模型獨角獸公司Lightning AI任資深研究工程師。博士畢業於密歇根州立大學,2018~2023年威斯康星大學麥迪遜分校助理教授(終身教職),從事深度學習科研和教學。除本書外,他還寫作了暢銷書《大模型技術30講》和《Python機器學習》。

目錄大綱

第 1 章 理解大語言模型 1

主要概念速測 1

分節習題 3

11 什麼是大語言模型 3

12 大語言模型的應用 4

13 構建和使用大語言模型的各個

階段 5

14 Transformer 架構介紹 5

15 利用大型數據集 6

16 深入剖析GPT 架構 7

17 構建大語言模型 9

答案 11

第 2 章 處理文本數據 18

主要概念速測 18

分節習題 20

21 理解詞嵌入 20

22 文本分詞 20

23 將詞元轉換為詞元ID 21

24 引入特殊上下文詞元 22

25 BPE 23

26 使用滑動窗口進行數據采樣 24

27 創建詞元嵌入 26

28 編碼單詞位置信息 27

章節練習 28

答案 29

第3 章 編碼註意力機制 38

主要概念速測 38

分節習題 40

31 長序列建模中的問題 40

32 使用註意力機制捕獲數據依賴

關系 41

33 通過自註意力機制關註輸入的

不同部分 41

34 實現帶可訓練權重的自註意力

機制 43

35 利用因果註意力隱藏未來詞匯 44

36 將單頭註意力擴展到多頭註意力 45

章節練習 47

答案 48

第4 章 從頭實現GPT 模型進行文本

生成 54

主要概念速測 54

分節習題 56

41 構建一個大語言模型架構 56

42 使用層歸一化進行歸一化激活 58

43 實現具有GELU 激活函數的

前饋神經網絡 59

44 添加快捷連接 60

45 連接Transformer 塊中的註意力層

和線性層 61

46 實現GPT 模型 62

47 生成文本 63

章節練習 64

答案 65

第5 章 在無標簽數據上進行預訓練 74

主要概念速測 74

分節習題 76

51 評估文本生成模型 76

52 訓練大語言模型 78

53 控制隨機性的解碼策略 79

54 使用PyTorch 加載和保存模型

權重 80

55 從OpenAI 加載預訓練權重 81

章節練習 81

答案 83

第6 章 針對分類的微調 91

主要概念速測 91

分節習題 93

61 不同類型的微調 93

62 準備數據集 94

63 創建數據加載器 95

64 初始化帶有預訓練權重的模型 97

65 添加分類頭 97

66 計算分類損失和準確率 97

67 在有監督數據上微調模型 98

68 使用大語言模型作為垃圾消息

分類器 100

章節練習 101

答案 102

第7 章 通過微調遵循人類指令 110

主要概念速測 110

分節習題 112

71 指令微調介紹 112

72 為有監督指令微調準備數據集 112

73 將數據組織成訓練批次 113

74 創建指令數據集的數據加載器 114

75 加載預訓練的大語言模型 116

76 在指令數據上微調大語言模型 116

77 抽取並保存模型回復 117

78 評估微調後的大語言模型 117

章節練習 118

答案 119

附錄A PyTorch 簡介 129

問題 129

答案 132

附錄B 參考文獻和延伸閱讀 136

附錄C 練習的解決方案 137

附錄D 為訓練循環添加更多細節和

優化功能 138

問題 138

答案 139

附錄E 使用LoRA 進行參數高效微調 140

問題 140

答案 142