百頁大模型原理

[加] 安德烈·布可夫(Andriy Burkov)

  • 百頁大模型原理-preview-1
百頁大模型原理-preview-1

相關主題

商品描述

大模型經歷了從統計語言模型到基於神經網絡的語言模型,再到Transformer架構的演進過程,如今已在各領域廣泛應用且備受關註。本書圍繞大模型展開,共分為6章。首先介紹機器學習基礎,包括人工智能、模型、神經網絡等概念;接著闡述語言建模基礎,涵蓋統計語言模型及其評估技術;隨後聚焦循環神經網絡,講解其實現與訓練過程;繼而深入解析Transformer架構,涉及自註意力機制等關鍵組件;然後探討與大模型相關的議題,如微調預訓練模型、減少幻覺現象等;最後總結全書並延伸介紹混合專家模型、模型壓縮等前沿拓展內容。全書語言精練,配有實操代碼示例。

本書適合軟件開發者、數據科學家、機器學習工程師,以及對大模型感興趣、具備一定編程經驗(最好熟悉Python語言)和大學數學基礎,希望理解大模型的數學基礎、探究其運作原理、自行實現核心組件或學習高效運用大模型的方法的讀者閱讀。

作者簡介

作者:安德烈·布可夫(Andriy Burkov)機器學習和自然語言處理領域公認專家,擁有人工智能博士學位,是一名十分活躍的技術分享者,影響了全球數百萬機器學習從業者和研究人員。

 

譯者:彭文華,國家工業信息安全發展研究中心高級工程師,北京航空航天大學碩士。深耕數據治理及人工智能領域 20 余年,在相關領域有著深厚的研究積澱與豐富的實踐經驗。近 5 年參與多項國標、團標編制,發表論文 5 篇,獲得 3 項數據及 AI 相關專利,出版獨著、譯著及參編著作共 9 部。

於冰冰,畢業於布魯塞爾自由大學,獲歐洲一體化與發展專業碩士學位。先後任職惠普、IBM 等科技公司,2012 年轉入金融及教育領域,2017 年起專註於數據管理,歷任CISO、DPO、DSO、Senior Manager DG,精通信息安全、數據治理與隱私保護。

目錄大綱

第 1章 機器學習基礎 1

1.1 人工智能和機器學習 1

1.2 模型 6

1.3 機器學習4步流程 14

1.4 向量 15

1.5 神經網絡 19

1.6 矩陣 25

1.7 梯度下降 28

1.8 自動微分 34

第 2章 語言建模基礎 39

2.1 詞袋模型 39

2.2 詞嵌入 52

2.3 字節對編碼 59

2.4 語言模型 66

2.5 統計語言模型 68

2.6 評估大模型 75

第3章 循環神經網絡 90

3.1 Elman循環神經網絡 90

3.2 小批量梯度下降 92

3.3 實現循環神經網絡 94

3.4 基於循環神經網絡的語言模型 97

3.5 嵌入層 98

3.6 訓練循環神經網絡語言模型 100

3.7 數據集和數據加載器 104

3.8 訓練數據和損失計算 106

第4章 Transformer架構 111

4.1 解碼器塊 112

4.2 自註意力機制 114

4.3 位置多層感知機 119

4.4 旋轉位置編碼 119

4.5 多頭註意力機制 126

4.6 殘差連接 128

4.7 均方根歸一化 132

4.8 鍵值緩存 133

4.9 用Python實現Transformer 135

第5章 大模型 143

5.1 為什麼規模越大越好 143

5.2 有監督微調 150

5.3 微調預訓練模型 152

5.4 從大模型中采樣 168

5.5 低秩適應法 173

5.6 大模型分類器 178

5.7 提示詞工程 179

5.8 幻覺 186

5.9 大模型、版權與倫理 189

第6章 拓展閱讀 194

6.1 混合專家模型 194

6.2 模型合並 195

6.3 模型壓縮 195

6.4 偏好對齊 196

6.5 高級推理 196

6.6 大模型安全 197

6.7 視覺大模型 197

6.8 防止過擬合 198

6.9 結束語 199

6.10 筆者的其他著作 199

最後瀏覽商品 (1)