大語言模型原理及應用

高侖,付傑,張福利,何會興,丁寧,王煜林 編著

  • 出版商: 清華大學
  • 出版日期: 2026-01-01
  • 售價: $359
  • 語言: 簡體中文
  • ISBN: 7302705453
  • ISBN-13: 9787302705451
  • 相關分類: Large language model
  • 下單後立即進貨 (約4週~6週)

  • 大語言模型原理及應用-preview-1
  • 大語言模型原理及應用-preview-2
  • 大語言模型原理及應用-preview-3
大語言模型原理及應用-preview-1

相關主題

商品描述

"本書是一部全面探討大語言模型理論與應用的教材,旨在幫助讀者全面掌握大語言模型的核心技術 與應用方法。本書詳細解析大語言模型的起源、發展歷程與核心技術架構,深入探討數據集預處理,大語 言模型微調與優化,RAG技術,智能體與編程工具,多模態模型,本地部署,大模型的評估,倫理、安全與未 來以及應用案例等關鍵主題。 本書註重實踐導向,每章均配備實驗指導與習題,幫助讀者通過實踐加深理解; 案例豐富,結合真實應 用場景,配備完整的落地實踐; 每章末尾提供總結性思維導圖、運行案例代碼及環境設置等相關知識,並融 合了**技術的進展。本書也配備了教學大綱、教學課件、電子教案、程序源碼、教學進度表、在線題庫等 資源供教學工作者參考。 本書適合對象廣泛,既可作為高等院校人工智能、計算機科學與技術相關專業教材,也可作為科研人 員、工程師、技術開發人員和行業從業者的專業參考書。同時,本書也適合對人工智能、大語言模型感興趣 的廣大讀者和愛好者閱讀,幫助他們更好地理解並應用這一技術。"

目錄大綱

源碼下載

第1 章 走進大語言模型 … … … … … … … … … … … … … … … … … … … … … … … 1

1 .1 從生活場景認識大語言模型 … … … … … … … … … … … … … … … … … … … … … 2

1 .1 .1 生活中的大語言模型… … … … … … … … … … … … … … … … … … … … … 2

1 .1 .2 大語言模型與傳統軟件的區別… … … … … … … … … … … … … … … … … 4

1 .1 .3 大語言模型如何改變我們的生活… … … … … … … … … … … … … … … … 5

1 .2 大語言模型技術發展簡史 … … … … … … … … … … … … … … … … … … … … … … 7

1 .2.1 早期語言模型(2017 年以前) … … … … … … … … … … … … … … … … … 8

1 .2.2 革命性突破: Transformer 架構(2017 年) … … … … … … … … … … … … 8

1 .2.3 預訓練模型和對齊技術的興起(2018—2022 年) … … … … … … … … … 8

1 .2.4 多模態模型(2023 年至今) … … … … … … … … … … … … … … … … … … 9

1 .2.5 國產大模型的崛起(DeepSeek-R1) … … … … … … … … … … … … … … 10

1 .2.6 Grok 3 的發布 … … … … … … … … … … … … … … … … … … … … … … … 10

1 .2.7 新一代大模型架構: Mamba 架構 … … … … … … … … … … … … … … … 11

1 .3 大語言模型的特征與功能… … … … … … … … … … … … … … … … … … … … … … 11

1 .3 .1 大語言模型的主要特征 … … … … … … … … … … … … … … … … … … … 11

1 .3 .2 大語言模型的核心功能 … … … … … … … … … … … … … … … … … … … 12

1 .3 .3 大語言模型的技術挑戰和未來發展方向 … … … … … … … … … … … … 13

小結 … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 13

習題1 … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 15

第2 章 大語言模型的核心原理 … … … … … … … … … … … … … … … … … … … 16

2.1 大語言模型的基礎: Transformer 架構 … … … … … … … … … … … … … … … … 17

2.1 .1 Transformer 架構概述 … … … … … … … … … … … … … … … … … … … 17

2.1 .2 自註意力機制 … … … … … … … … … … … … … … … … … … … … … … … 17

2.1 .3 編碼器與解碼器的概念 … … … … … … … … … … … … … … … … … … … 18

2.2 編碼器與解碼器的演化… … … … … … … … … … … … … … … … … … … … … … … 18

2.2.1 Encoder-Only 技術 … … … … … … … … … … … … … … … … … … … … … 18Ⅵ

2.2.2 Decoder-Only 技術 … … … … … … … … … … … … … … … … … … … … … 20

2.2.3 Encoder-Only 與 Decoder-Only 對比分析 … … … … … … … … … … … 22

2.2.4 混合架構的興起 … … … … … … … … … … … … … … … … … … … … … 22

2.3 大語言模型的提示詞工程… … … … … … … … … … … … … … … … … … … … … … 22

2.3 .1 什麼是提示詞工程 … … … … … … … … … … … … … … … … … … … … … 23

2.3 .2 提示詞工程的核心技巧 … … … … … … … … … … … … … … … … … … … 23

2.4 實驗: 提示詞進階 … … … … … … … … … … … … … … … … … … … … … … … … … 25

小結 … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 26

習題2 … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 28

第3 章 數據集預處理 … … … … … … … … … … … … … … … … … … … … … … … … 29

3 .1 數據集預處理概述… … … … … … … … … … … … … … … … … … … … … … … … … 30

3 .1 .1 數據集預處理的重要性 … … … … … … … … … … … … … … … … … … … 30

3 .1 .2 預處理流程全景圖 … … … … … … … … … … … … … … … … … … … … … 32

3 .1 .3 數據質量與大模型性能的關聯 … … … … … … … … … … … … … … … … 32

3 .2 數據集類型與來源… … … … … … … … … … … … … … … … … … … … … … … … … 34

3 .2.1 通用數據 … … … … … … … … … … … … … … … … … … … … … … … … … 34

3 .2.2 專業數據 … … … … … … … … … … … … … … … … … … … … … … … … … 35

3 .3 數據格式介紹… … … … … … … … … … … … … … … … … … … … … … … … … … … 36

3 .3 .1 問答格式(QA Pairs) … … … … … … … … … … … … … … … … … … … … 37

3 .3 .2 對話格式(Conversational Format) … … … … … … … … … … … … … … 37

3 .3 .3 指令微調格式(LLaMa-Factory/Alpaca) … … … … … … … … … … … … 37

3 .3 .4 通用結構化格式(JSON/JSONL) … … … … … … … … … … … … … … … 37

3 .3 .5 純文本格式(TXT) … … … … … … … … … … … … … … … … … … … … … 38

3 .4 數據集預處理技術… … … … … … … … … … … … … … … … … … … … … … … … … 38

3 .5 數據合規性要求… … … … … … … … … … … … … … … … … … … … … … … … … … 40

3 .6 實驗: 對話格式數據集構建應用 … … … … … … … … … … … … … … … … … … … 40

小結 … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 43

習題3 … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 46

第4 章 大語言模型微調與優化 … … … … … … … … … … … … … … … … … … … 47

4.1 為什麼需要微調… … … … … … … … … … … … … … … … … … … … … … … … … … 48

4.1 .1 目標與意義 … … … … … … … … … … … … … … … … … … … … … … … … 48

4.1 .2 微調的基本流程 … … … … … … … … … … … … … … … … … … … … … … 49

4.2 微調的兩種方式… … … … … … … … … … … … … … … … … … … … … … … … … … 49

4.2.1 全參微調 … … … … … … … … … … … … … … … … … … … … … … … … … 49

4.2.2 高效微調 … … … … … … … … … … … … … … … … … … … … … … … … … 50

4.2.3 兩種微調方式對比 … … … … … … … … … … … … … … … … … … … … … 50

4.3 微調工具的介紹… … … … … … … … … … … … … … … … … … … … … … … … … … 52Ⅶ

4.3 .1 LLaMa-Factory 簡介 … … … … … … … … … … … … … … … … … … … … 52

4.3 .2 DeepSeed 簡介 … … … … … … … … … … … … … … … … … … … … … … … 52

4.3 .3 Hugging Face Transformers 簡介… … … … … … … … … … … … … … … 52

4.3 .4 3 種工具對比 … … … … … … … … … … … … … … … … … … … … … … … 52

4.4 動手實踐一個微調模型… … … … … … … … … … … … … … … … … … … … … … … 53

4.4.1 LLaMa-Factory 環境配置 … … … … … … … … … … … … … … … … … … 53

4.4.2 數據準備 … … … … … … … … … … … … … … … … … … … … … … … … … 56

4.4.3 LLaMa-Factory 實現全參數微調 … … … … … … … … … … … … … … … 59

4.5 實驗… … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 61

實驗4-1 LLaMa-Factory 實現 LoRA 微調 … … … … … … … … … … … … … … 61

實驗4-2 LLaMa-Factory 實現 Adapter 微調 … … … … … … … … … … … … … 63

小結 … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 65

習題4 … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 66

第5 章 RAG 技術 … … … … … … … … … … … … … … … … … … … … … … … … … … 67

5 .1 RAG 技術概述 … … … … … … … … … … … … … … … … … … … … … … … … … … 68

5 .1 .1 RAG 定義與實用價值… … … … … … … … … … … … … … … … … … … … 68

5 .1 .2 RAG 技術發展歷程… … … … … … … … … … … … … … … … … … … … … 69

5 .1 .3 RAG 應用場景… … … … … … … … … … … … … … … … … … … … … … … 70

5 .2 RAG 系統核心架構 … … … … … … … … … … … … … … … … … … … … … … … … 73

5 .2.1 RAG 系統三大核心組件… … … … … … … … … … … … … … … … … … … 73

5 .2.2 RAG 系統工作流程… … … … … … … … … … … … … … … … … … … … … 75

5 .3 RAG 關鍵技術解析 … … … … … … … … … … … … … … … … … … … … … … … … 77

5 .3 .1 文本向量化 … … … … … … … … … … … … … … … … … … … … … … … … 77

5 .3 .2 檢索優化策略: 混合檢索(BM25 + 向量) … … … … … … … … … … … … 79

5 .3 .3 生成器優化技巧: 提示詞工程與上下文融合 … … … … … … … … … … 80

5 .4 項目舉例: 醫學領域 RAG 系統的實現 … … … … … … … … … … … … … … … … 81

5 .5 實驗: 基於 LangChain 的醫學領域 RAG 系統實現 … … … … … … … … … … … 84

小結 … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 89

習題5 … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 92

第6 章 智能體技術入門 … … … … … … … … … … … … … … … … … … … … … … 93

6 .1 智能體的基本原理… … … … … … … … … … … … … … … … … … … … … … … … … 94

6 .1 .1 智能體的定義與功能 … … … … … … … … … … … … … … … … … … … … 94

6 .1 .2 智能體的技術框架 … … … … … … … … … … … … … … … … … … … … … 96

6 .1 .3 智能體的工作流程 … … … … … … … … … … … … … … … … … … … … … 97

6 .1 .4 智能體的應用 … … … … … … … … … … … … … … … … … … … … … … … 99

6 .2 基於平臺快速構建智能體 … … … … … … … … … … … … … … … … … … … … … 100

6 .2.1 國內外著名的智能體開發平臺… … … … … … … … … … … … … … … … 100Ⅷ

6 .2.2 扣子平臺 Cozen 的快速構建 Agent 智能體 … … … … … … … … … … 101

6 .2.3 利用扣子平臺搭建智能體工作流… … … … … … … … … … … … … … … 105

6 .3 實驗: 利用扣子平臺搭建校園導覽助手 … … … … … … … … … … … … … … … 106

小結… … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 116

習題6 … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 118

第7 章 AI 編程工具與大語言模型 … … … … … … … … … … … … … … … … … 119

7.1 常見 AI 編程工具簡介 … … … … … … … … … … … … … … … … … … … … … … 120

7.1 .1 扣子簡介… … … … … … … … … … … … … … … … … … … … … … … … … 120

7.1 .2 AI 速搭簡介 … … … … … … … … … … … … … … … … … … … … … … … 120

7.1 .3 通義靈碼簡介… … … … … … … … … … … … … … … … … … … … … … … 120

7.1 .4 LangFlow 簡介 … … … … … … … … … … … … … … … … … … … … … … 120

7.1 .5 Cline 簡介 … … … … … … … … … … … … … … … … … … … … … … … … 121

7.1 .6 Trae 簡介 … … … … … … … … … … … … … … … … … … … … … … … … 121

7.1 .7 Cursor 簡介 … … … … … … … … … … … … … … … … … … … … … … … 121

7.2 主要 AI 編程工具對比 … … … … … … … … … … … … … … … … … … … … … … 121

7.3 AI 編程工具實踐 … … … … … … … … … … … … … … … … … … … … … … … … … 122

7.3 .1 用 Cline 實現一個停車場管理系統的前端開發 … … … … … … … … … 122

7.3 .2 用 Trae 復現一個經典的機器學習算法並進行訓練、 評估 … … … … 127

7.4 實驗: 搭建倉儲管理系統的前端界面 … … … … … … … … … … … … … … … … 137

小結… … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 141

習題7 … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 142

第8 章 多模態大語言模型 … … … … … … … … … … … … … … … … … … … … … 143

8.1 多模態的概念 … … … … … … … … … … … … … … … … … … … … … … … … … … 144

8.1 .1 什麼是多模態大語言模型… … … … … … … … … … … … … … … … … … 144

8.1 .2 多模態大語言模型的應用場景… … … … … … … … … … … … … … … … 146

8.2 生成工具介紹 … … … … … … … … … … … … … … … … … … … … … … … … … … 147

8.2.1 Stable Diffusion … … … … … … … … … … … … … … … … … … … … … 147

8.2.2 Midjourney … … … … … … … … … … … … … … … … … … … … … … … 150

8.2.3 可靈視頻生成… … … … … … … … … … … … … … … … … … … … … … … 152

8.3 實驗: 文本生成圖片和圖片生成視頻 … … … … … … … … … … … … … … … … 153

小結… … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 158

習題8 … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 160

第9 章 本地大語言模型部署… … … … … … … … … … … … … … … … … … … … 161

9 .1 為什麼要構建本地大語言模型 … … … … … … … … … … … … … … … … … … … 162

9 .1 .1 構建數據主權與增強數字韌性… … … … … … … … … … … … … … … … 162

9 .1 .2 驅動自主創新與提升核心競爭力… … … … … … … … … … … … … … … 162Ⅸ

9 .1 .3 長期成本效益: 優化資源利用 … … … … … … … … … … … … … … … … 162

9 .2 本地部署大語言模型的基礎認知 … … … … … … … … … … … … … … … … … … 163

9 .2.1 大語言模型概述… … … … … … … … … … … … … … … … … … … … … … 163

9 .2.2 本地部署與雲端部署的對比… … … … … … … … … … … … … … … … … 163

9 .2.3 本地部署適合場景… … … … … … … … … … … … … … … … … … … … … 163

9 .3 本地部署的準備工作 … … … … … … … … … … … … … … … … … … … … … … … 163

9 .3 .1 硬件要求與選擇… … … … … … … … … … … … … … … … … … … … … … 163

9 .3 .2 軟件工具… … … … … … … … … … … … … … … … … … … … … … … … … 164

9 .3 .3 安全防護… … … … … … … … … … … … … … … … … … … … … … … … … 164

9 .4 DeepSeek 本地部署實踐 … … … … … … … … … … … … … … … … … … … … … … 164

9 .4.1 DeepSeek 大語言模型: AI 領域的創新先鋒 … … … … … … … … … … 164

9 .4.2 DeepSeek 主要版本介紹 … … … … … … … … … … … … … … … … … … 166

9 .4.3 DeepSeek 選擇建議 … … … … … … … … … … … … … … … … … … … … 167

9 .5 實驗: DeepSeek R1 本地部署 … … … … … … … … … … … … … … … … … … … 168

小結… … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 175

習題9 … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 177

第10 章 大語言模型的應用 … … … … … … … … … … … … … … … … … … … … 178

10.1 生活中的大語言模型… … … … … … … … … … … … … … … … … … … … … … … 179

10.1 .1 智能客服與在線購物助手… … … … … … … … … … … … … … … … … 179

10.1 .2 AI 家教: 教育領域的智能革命 … … … … … … … … … … … … … … 181

10.2 行業中的大語言模型… … … … … … … … … … … … … … … … … … … … … … … 184

10.2.1 大語言模型在金融行業的應用… … … … … … … … … … … … … … … 184

10.2.2 大語言模型在醫療行業的應用… … … … … … … … … … … … … … … 186

10.2.3 大語言模型在寫作領域的應用… … … … … … … … … … … … … … … 188

10.3 實驗… … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 189

實驗10-1 使用 Coze 自動生成小紅書文檔 … … … … … … … … … … … … … 189

實驗10-2 使用 Coze 平臺輔助教學設計 … … … … … … … … … … … … … … 193

實驗10-3 構建基於 PDF 的智能問答系統 … … … … … … … … … … … … … 199

實驗10-4 用 AI 智能生成簡易網站 … … … … … … … … … … … … … … … … 202

小結… … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 205

第11 章 大語言模型的評估 … … … … … … … … … … … … … … … … … … … … 208

11 .1 大語言模型評估體系及相關指標… … … … … … … … … … … … … … … … … … 209

11 .1 .1 功能性評估及指標… … … … … … … … … … … … … … … … … … … … 209

11 .1 .2 性能評估及指標… … … … … … … … … … … … … … … … … … … … … 212

11 .1 .3 對齊評估及指標… … … … … … … … … … … … … … … … … … … … … 213

11 .1 .4 安全性評估及指標… … … … … … … … … … … … … … … … … … … … 214

11 .2 大語言模型評估方法… … … … … … … … … … … … … … … … … … … … … … … 215Ⅹ

11 .2.1 人工評估… … … … … … … … … … … … … … … … … … … … … … … … 215

11 .2.2 大語言模型評估… … … … … … … … … … … … … … … … … … … … … 215

11 .2.3 對比評估… … … … … … … … … … … … … … … … … … … … … … … … 215

11 .2.4 評估基準… … … … … … … … … … … … … … … … … … … … … … … … 216

11 .3 大語言模型評估實踐… … … … … … … … … … … … … … … … … … … … … … … 216

11 .3 .1 當前流行的評估平臺… … … … … … … … … … … … … … … … … … … 216

11 .3 .2 ModelScope Notebook … … … … … … … … … … … … … … … … … … 217

11 .4 實驗: 使用 ModelScope 對自選模型進行評估 … … … … … … … … … … … … 217

小結… … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 220

習題11 … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 222

第12 章 倫理、安全與未來 … … … … … … … … … … … … … … … … … … … … … 223

12.1 大語言模型的倫理考量… … … … … … … … … … … … … … … … … … … … … … 224

12.1 .1 偏見與公平性問題… … … … … … … … … … … … … … … … … … … … 224

12.1 .2 隱私侵犯風險… … … … … … … … … … … … … … … … … … … … … … 224

12.1 .3 虛假信息傳播… … … … … … … … … … … … … … … … … … … … … … 224

12.2 大語言模型的安全挑戰… … … … … … … … … … … … … … … … … … … … … … 225

12.2.1 對抗攻擊威脅… … … … … … … … … … … … … … … … … … … … … … 225

12.2.2 數據安全隱患… … … … … … … … … … … … … … … … … … … … … … 225

12.2.3 模型竊取風險… … … … … … … … … … … … … … … … … … … … … … 225

12.2.4 AIGC 論文檢測 AI 生成率與安全關聯 … … … … … … … … … … … 225

12.3 大語言模型的未來展望… … … … … … … … … … … … … … … … … … … … … … 226

12.3 .1 技術發展趨勢… … … … … … … … … … … … … … … … … … … … … … 226

12.3 .2 液態神經網絡技術的發展與應用前景… … … … … … … … … … … … 226

12.3 .3 合成數據與未來發展… … … … … … … … … … … … … … … … … … … 226

12.3 .4 大語言模型的融合探索… … … … … … … … … … … … … … … … … … 227

12.3 .5 大語言模型對各行業的影響及商業化發展… … … … … … … … … … 227

12.3 .6 應對策略匯總… … … … … … … … … … … … … … … … … … … … … … 228

小結… … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 228

習題12 … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 229

參考文獻… … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 2