大語言模型原理及應用
高侖,付傑,張福利,何會興,丁寧,王煜林 編著
- 出版商: 清華大學
- 出版日期: 2026-01-01
- 售價: $359
- 語言: 簡體中文
- ISBN: 7302705453
- ISBN-13: 9787302705451
-
相關分類:
Large language model
下單後立即進貨 (約4週~6週)
相關主題
商品描述
目錄大綱
源碼下載
第1 章 走進大語言模型 … … … … … … … … … … … … … … … … … … … … … … … 1
1 .1 從生活場景認識大語言模型 … … … … … … … … … … … … … … … … … … … … … 2
1 .1 .1 生活中的大語言模型… … … … … … … … … … … … … … … … … … … … … 2
1 .1 .2 大語言模型與傳統軟件的區別… … … … … … … … … … … … … … … … … 4
1 .1 .3 大語言模型如何改變我們的生活… … … … … … … … … … … … … … … … 5
1 .2 大語言模型技術發展簡史 … … … … … … … … … … … … … … … … … … … … … … 7
1 .2.1 早期語言模型(2017 年以前) … … … … … … … … … … … … … … … … … 8
1 .2.2 革命性突破: Transformer 架構(2017 年) … … … … … … … … … … … … 8
1 .2.3 預訓練模型和對齊技術的興起(2018—2022 年) … … … … … … … … … 8
1 .2.4 多模態模型(2023 年至今) … … … … … … … … … … … … … … … … … … 9
1 .2.5 國產大模型的崛起(DeepSeek-R1) … … … … … … … … … … … … … … 10
1 .2.6 Grok 3 的發布 … … … … … … … … … … … … … … … … … … … … … … … 10
1 .2.7 新一代大模型架構: Mamba 架構 … … … … … … … … … … … … … … … 11
1 .3 大語言模型的特征與功能… … … … … … … … … … … … … … … … … … … … … … 11
1 .3 .1 大語言模型的主要特征 … … … … … … … … … … … … … … … … … … … 11
1 .3 .2 大語言模型的核心功能 … … … … … … … … … … … … … … … … … … … 12
1 .3 .3 大語言模型的技術挑戰和未來發展方向 … … … … … … … … … … … … 13
小結 … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 13
習題1 … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 15
第2 章 大語言模型的核心原理 … … … … … … … … … … … … … … … … … … … 16
2.1 大語言模型的基礎: Transformer 架構 … … … … … … … … … … … … … … … … 17
2.1 .1 Transformer 架構概述 … … … … … … … … … … … … … … … … … … … 17
2.1 .2 自註意力機制 … … … … … … … … … … … … … … … … … … … … … … … 17
2.1 .3 編碼器與解碼器的概念 … … … … … … … … … … … … … … … … … … … 18
2.2 編碼器與解碼器的演化… … … … … … … … … … … … … … … … … … … … … … … 18
2.2.1 Encoder-Only 技術 … … … … … … … … … … … … … … … … … … … … … 18Ⅵ
2.2.2 Decoder-Only 技術 … … … … … … … … … … … … … … … … … … … … … 20
2.2.3 Encoder-Only 與 Decoder-Only 對比分析 … … … … … … … … … … … 22
2.2.4 混合架構的興起 … … … … … … … … … … … … … … … … … … … … … 22
2.3 大語言模型的提示詞工程… … … … … … … … … … … … … … … … … … … … … … 22
2.3 .1 什麼是提示詞工程 … … … … … … … … … … … … … … … … … … … … … 23
2.3 .2 提示詞工程的核心技巧 … … … … … … … … … … … … … … … … … … … 23
2.4 實驗: 提示詞進階 … … … … … … … … … … … … … … … … … … … … … … … … … 25
小結 … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 26
習題2 … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 28
第3 章 數據集預處理 … … … … … … … … … … … … … … … … … … … … … … … … 29
3 .1 數據集預處理概述… … … … … … … … … … … … … … … … … … … … … … … … … 30
3 .1 .1 數據集預處理的重要性 … … … … … … … … … … … … … … … … … … … 30
3 .1 .2 預處理流程全景圖 … … … … … … … … … … … … … … … … … … … … … 32
3 .1 .3 數據質量與大模型性能的關聯 … … … … … … … … … … … … … … … … 32
3 .2 數據集類型與來源… … … … … … … … … … … … … … … … … … … … … … … … … 34
3 .2.1 通用數據 … … … … … … … … … … … … … … … … … … … … … … … … … 34
3 .2.2 專業數據 … … … … … … … … … … … … … … … … … … … … … … … … … 35
3 .3 數據格式介紹… … … … … … … … … … … … … … … … … … … … … … … … … … … 36
3 .3 .1 問答格式(QA Pairs) … … … … … … … … … … … … … … … … … … … … 37
3 .3 .2 對話格式(Conversational Format) … … … … … … … … … … … … … … 37
3 .3 .3 指令微調格式(LLaMa-Factory/Alpaca) … … … … … … … … … … … … 37
3 .3 .4 通用結構化格式(JSON/JSONL) … … … … … … … … … … … … … … … 37
3 .3 .5 純文本格式(TXT) … … … … … … … … … … … … … … … … … … … … … 38
3 .4 數據集預處理技術… … … … … … … … … … … … … … … … … … … … … … … … … 38
3 .5 數據合規性要求… … … … … … … … … … … … … … … … … … … … … … … … … … 40
3 .6 實驗: 對話格式數據集構建應用 … … … … … … … … … … … … … … … … … … … 40
小結 … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 43
習題3 … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 46
第4 章 大語言模型微調與優化 … … … … … … … … … … … … … … … … … … … 47
4.1 為什麼需要微調… … … … … … … … … … … … … … … … … … … … … … … … … … 48
4.1 .1 目標與意義 … … … … … … … … … … … … … … … … … … … … … … … … 48
4.1 .2 微調的基本流程 … … … … … … … … … … … … … … … … … … … … … … 49
4.2 微調的兩種方式… … … … … … … … … … … … … … … … … … … … … … … … … … 49
4.2.1 全參微調 … … … … … … … … … … … … … … … … … … … … … … … … … 49
4.2.2 高效微調 … … … … … … … … … … … … … … … … … … … … … … … … … 50
4.2.3 兩種微調方式對比 … … … … … … … … … … … … … … … … … … … … … 50
4.3 微調工具的介紹… … … … … … … … … … … … … … … … … … … … … … … … … … 52Ⅶ
4.3 .1 LLaMa-Factory 簡介 … … … … … … … … … … … … … … … … … … … … 52
4.3 .2 DeepSeed 簡介 … … … … … … … … … … … … … … … … … … … … … … … 52
4.3 .3 Hugging Face Transformers 簡介… … … … … … … … … … … … … … … 52
4.3 .4 3 種工具對比 … … … … … … … … … … … … … … … … … … … … … … … 52
4.4 動手實踐一個微調模型… … … … … … … … … … … … … … … … … … … … … … … 53
4.4.1 LLaMa-Factory 環境配置 … … … … … … … … … … … … … … … … … … 53
4.4.2 數據準備 … … … … … … … … … … … … … … … … … … … … … … … … … 56
4.4.3 LLaMa-Factory 實現全參數微調 … … … … … … … … … … … … … … … 59
4.5 實驗… … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 61
實驗4-1 LLaMa-Factory 實現 LoRA 微調 … … … … … … … … … … … … … … 61
實驗4-2 LLaMa-Factory 實現 Adapter 微調 … … … … … … … … … … … … … 63
小結 … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 65
習題4 … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 66
第5 章 RAG 技術 … … … … … … … … … … … … … … … … … … … … … … … … … … 67
5 .1 RAG 技術概述 … … … … … … … … … … … … … … … … … … … … … … … … … … 68
5 .1 .1 RAG 定義與實用價值… … … … … … … … … … … … … … … … … … … … 68
5 .1 .2 RAG 技術發展歷程… … … … … … … … … … … … … … … … … … … … … 69
5 .1 .3 RAG 應用場景… … … … … … … … … … … … … … … … … … … … … … … 70
5 .2 RAG 系統核心架構 … … … … … … … … … … … … … … … … … … … … … … … … 73
5 .2.1 RAG 系統三大核心組件… … … … … … … … … … … … … … … … … … … 73
5 .2.2 RAG 系統工作流程… … … … … … … … … … … … … … … … … … … … … 75
5 .3 RAG 關鍵技術解析 … … … … … … … … … … … … … … … … … … … … … … … … 77
5 .3 .1 文本向量化 … … … … … … … … … … … … … … … … … … … … … … … … 77
5 .3 .2 檢索優化策略: 混合檢索(BM25 + 向量) … … … … … … … … … … … … 79
5 .3 .3 生成器優化技巧: 提示詞工程與上下文融合 … … … … … … … … … … 80
5 .4 項目舉例: 醫學領域 RAG 系統的實現 … … … … … … … … … … … … … … … … 81
5 .5 實驗: 基於 LangChain 的醫學領域 RAG 系統實現 … … … … … … … … … … … 84
小結 … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 89
習題5 … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 92
第6 章 智能體技術入門 … … … … … … … … … … … … … … … … … … … … … … 93
6 .1 智能體的基本原理… … … … … … … … … … … … … … … … … … … … … … … … … 94
6 .1 .1 智能體的定義與功能 … … … … … … … … … … … … … … … … … … … … 94
6 .1 .2 智能體的技術框架 … … … … … … … … … … … … … … … … … … … … … 96
6 .1 .3 智能體的工作流程 … … … … … … … … … … … … … … … … … … … … … 97
6 .1 .4 智能體的應用 … … … … … … … … … … … … … … … … … … … … … … … 99
6 .2 基於平臺快速構建智能體 … … … … … … … … … … … … … … … … … … … … … 100
6 .2.1 國內外著名的智能體開發平臺… … … … … … … … … … … … … … … … 100Ⅷ
6 .2.2 扣子平臺 Cozen 的快速構建 Agent 智能體 … … … … … … … … … … 101
6 .2.3 利用扣子平臺搭建智能體工作流… … … … … … … … … … … … … … … 105
6 .3 實驗: 利用扣子平臺搭建校園導覽助手 … … … … … … … … … … … … … … … 106
小結… … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 116
習題6 … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 118
第7 章 AI 編程工具與大語言模型 … … … … … … … … … … … … … … … … … 119
7.1 常見 AI 編程工具簡介 … … … … … … … … … … … … … … … … … … … … … … 120
7.1 .1 扣子簡介… … … … … … … … … … … … … … … … … … … … … … … … … 120
7.1 .2 AI 速搭簡介 … … … … … … … … … … … … … … … … … … … … … … … 120
7.1 .3 通義靈碼簡介… … … … … … … … … … … … … … … … … … … … … … … 120
7.1 .4 LangFlow 簡介 … … … … … … … … … … … … … … … … … … … … … … 120
7.1 .5 Cline 簡介 … … … … … … … … … … … … … … … … … … … … … … … … 121
7.1 .6 Trae 簡介 … … … … … … … … … … … … … … … … … … … … … … … … 121
7.1 .7 Cursor 簡介 … … … … … … … … … … … … … … … … … … … … … … … 121
7.2 主要 AI 編程工具對比 … … … … … … … … … … … … … … … … … … … … … … 121
7.3 AI 編程工具實踐 … … … … … … … … … … … … … … … … … … … … … … … … … 122
7.3 .1 用 Cline 實現一個停車場管理系統的前端開發 … … … … … … … … … 122
7.3 .2 用 Trae 復現一個經典的機器學習算法並進行訓練、 評估 … … … … 127
7.4 實驗: 搭建倉儲管理系統的前端界面 … … … … … … … … … … … … … … … … 137
小結… … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 141
習題7 … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 142
第8 章 多模態大語言模型 … … … … … … … … … … … … … … … … … … … … … 143
8.1 多模態的概念 … … … … … … … … … … … … … … … … … … … … … … … … … … 144
8.1 .1 什麼是多模態大語言模型… … … … … … … … … … … … … … … … … … 144
8.1 .2 多模態大語言模型的應用場景… … … … … … … … … … … … … … … … 146
8.2 生成工具介紹 … … … … … … … … … … … … … … … … … … … … … … … … … … 147
8.2.1 Stable Diffusion … … … … … … … … … … … … … … … … … … … … … 147
8.2.2 Midjourney … … … … … … … … … … … … … … … … … … … … … … … 150
8.2.3 可靈視頻生成… … … … … … … … … … … … … … … … … … … … … … … 152
8.3 實驗: 文本生成圖片和圖片生成視頻 … … … … … … … … … … … … … … … … 153
小結… … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 158
習題8 … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 160
第9 章 本地大語言模型部署… … … … … … … … … … … … … … … … … … … … 161
9 .1 為什麼要構建本地大語言模型 … … … … … … … … … … … … … … … … … … … 162
9 .1 .1 構建數據主權與增強數字韌性… … … … … … … … … … … … … … … … 162
9 .1 .2 驅動自主創新與提升核心競爭力… … … … … … … … … … … … … … … 162Ⅸ
9 .1 .3 長期成本效益: 優化資源利用 … … … … … … … … … … … … … … … … 162
9 .2 本地部署大語言模型的基礎認知 … … … … … … … … … … … … … … … … … … 163
9 .2.1 大語言模型概述… … … … … … … … … … … … … … … … … … … … … … 163
9 .2.2 本地部署與雲端部署的對比… … … … … … … … … … … … … … … … … 163
9 .2.3 本地部署適合場景… … … … … … … … … … … … … … … … … … … … … 163
9 .3 本地部署的準備工作 … … … … … … … … … … … … … … … … … … … … … … … 163
9 .3 .1 硬件要求與選擇… … … … … … … … … … … … … … … … … … … … … … 163
9 .3 .2 軟件工具… … … … … … … … … … … … … … … … … … … … … … … … … 164
9 .3 .3 安全防護… … … … … … … … … … … … … … … … … … … … … … … … … 164
9 .4 DeepSeek 本地部署實踐 … … … … … … … … … … … … … … … … … … … … … … 164
9 .4.1 DeepSeek 大語言模型: AI 領域的創新先鋒 … … … … … … … … … … 164
9 .4.2 DeepSeek 主要版本介紹 … … … … … … … … … … … … … … … … … … 166
9 .4.3 DeepSeek 選擇建議 … … … … … … … … … … … … … … … … … … … … 167
9 .5 實驗: DeepSeek R1 本地部署 … … … … … … … … … … … … … … … … … … … 168
小結… … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 175
習題9 … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 177
第10 章 大語言模型的應用 … … … … … … … … … … … … … … … … … … … … 178
10.1 生活中的大語言模型… … … … … … … … … … … … … … … … … … … … … … … 179
10.1 .1 智能客服與在線購物助手… … … … … … … … … … … … … … … … … 179
10.1 .2 AI 家教: 教育領域的智能革命 … … … … … … … … … … … … … … 181
10.2 行業中的大語言模型… … … … … … … … … … … … … … … … … … … … … … … 184
10.2.1 大語言模型在金融行業的應用… … … … … … … … … … … … … … … 184
10.2.2 大語言模型在醫療行業的應用… … … … … … … … … … … … … … … 186
10.2.3 大語言模型在寫作領域的應用… … … … … … … … … … … … … … … 188
10.3 實驗… … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 189
實驗10-1 使用 Coze 自動生成小紅書文檔 … … … … … … … … … … … … … 189
實驗10-2 使用 Coze 平臺輔助教學設計 … … … … … … … … … … … … … … 193
實驗10-3 構建基於 PDF 的智能問答系統 … … … … … … … … … … … … … 199
實驗10-4 用 AI 智能生成簡易網站 … … … … … … … … … … … … … … … … 202
小結… … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 205
第11 章 大語言模型的評估 … … … … … … … … … … … … … … … … … … … … 208
11 .1 大語言模型評估體系及相關指標… … … … … … … … … … … … … … … … … … 209
11 .1 .1 功能性評估及指標… … … … … … … … … … … … … … … … … … … … 209
11 .1 .2 性能評估及指標… … … … … … … … … … … … … … … … … … … … … 212
11 .1 .3 對齊評估及指標… … … … … … … … … … … … … … … … … … … … … 213
11 .1 .4 安全性評估及指標… … … … … … … … … … … … … … … … … … … … 214
11 .2 大語言模型評估方法… … … … … … … … … … … … … … … … … … … … … … … 215Ⅹ
11 .2.1 人工評估… … … … … … … … … … … … … … … … … … … … … … … … 215
11 .2.2 大語言模型評估… … … … … … … … … … … … … … … … … … … … … 215
11 .2.3 對比評估… … … … … … … … … … … … … … … … … … … … … … … … 215
11 .2.4 評估基準… … … … … … … … … … … … … … … … … … … … … … … … 216
11 .3 大語言模型評估實踐… … … … … … … … … … … … … … … … … … … … … … … 216
11 .3 .1 當前流行的評估平臺… … … … … … … … … … … … … … … … … … … 216
11 .3 .2 ModelScope Notebook … … … … … … … … … … … … … … … … … … 217
11 .4 實驗: 使用 ModelScope 對自選模型進行評估 … … … … … … … … … … … … 217
小結… … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 220
習題11 … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 222
第12 章 倫理、安全與未來 … … … … … … … … … … … … … … … … … … … … … 223
12.1 大語言模型的倫理考量… … … … … … … … … … … … … … … … … … … … … … 224
12.1 .1 偏見與公平性問題… … … … … … … … … … … … … … … … … … … … 224
12.1 .2 隱私侵犯風險… … … … … … … … … … … … … … … … … … … … … … 224
12.1 .3 虛假信息傳播… … … … … … … … … … … … … … … … … … … … … … 224
12.2 大語言模型的安全挑戰… … … … … … … … … … … … … … … … … … … … … … 225
12.2.1 對抗攻擊威脅… … … … … … … … … … … … … … … … … … … … … … 225
12.2.2 數據安全隱患… … … … … … … … … … … … … … … … … … … … … … 225
12.2.3 模型竊取風險… … … … … … … … … … … … … … … … … … … … … … 225
12.2.4 AIGC 論文檢測 AI 生成率與安全關聯 … … … … … … … … … … … 225
12.3 大語言模型的未來展望… … … … … … … … … … … … … … … … … … … … … … 226
12.3 .1 技術發展趨勢… … … … … … … … … … … … … … … … … … … … … … 226
12.3 .2 液態神經網絡技術的發展與應用前景… … … … … … … … … … … … 226
12.3 .3 合成數據與未來發展… … … … … … … … … … … … … … … … … … … 226
12.3 .4 大語言模型的融合探索… … … … … … … … … … … … … … … … … … 227
12.3 .5 大語言模型對各行業的影響及商業化發展… … … … … … … … … … 227
12.3 .6 應對策略匯總… … … … … … … … … … … … … … … … … … … … … … 228
小結… … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 228
習題12 … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 229
參考文獻… … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 2



