大語言模型

陳明

  • 出版商: 電子工業
  • 出版日期: 2025-09-01
  • 售價: $479
  • 語言: 簡體中文
  • 頁數: 416
  • ISBN: 7121508915
  • ISBN-13: 9787121508912
  • 相關分類: Large language model
  • 下單後立即進貨 (約4週~6週)

相關主題

商品描述

大語言模型(Large Language Model,LLM)是人工智能領域研究和應用的前沿焦點,現已成為人工智能發展的新方向和新一代人工智能的基礎設施。本書較系統地介紹了語言大模型的基本內容,主要包括發展語言大模型的三次熱潮、深度學習基礎、註意力機制、殘差鏈接與逐層歸一化、Transformer模型、預訓練語言模型、LLM結構與訓練、遷移學習、人類反饋強化學習、元學習、GPT系列LLM、BERT模型、T5模型、統一語言模型和提示工程等。 本書適合作為本科院校相關專業的教材。

目錄大綱

目 錄
第1章 大語言模型概述 1
1.1 LLM的產生與發展 1
1.1.1 LLM的產生 2
1.1.2 LLM的發展 2
1.2 LLM的特點與分類 4
1.2.1 LLM的特點 4
1.2.2 LLM的分類 5
1.3 自然語言處理與LLM 6
1.3.1 自然語言處理 6
1.3.2 LLM的主要功能 9
1.3.3 LLM擴展法則 10
1.3.4 LLM的湧現現象與湧現能力 12
1.4 LLM技術 13
1.4.1 LLM基本技術 13
1.4.2 LLM關鍵技術 14
1.4.3 LLM知識體系與人工智能引擎 16
1.4.4 LLM的評價指標 19
1.5 LLM應用場景與LLM下遊任務 19
1.5.1 LLM應用場景 20
1.5.2 LLM下遊任務 20
1.5.3 LLM應用場景與LLM下遊任務的區別 20
本章小結 20
第2章 深度學習基礎 21
2.1 深度學習概述 21
2.1.1 深度學習的產生與發展 21
2.1.2 深度學習的內涵與外延 22
2.2 機器學習方式 24
2.2.1 監督式學習方式 25
2.2.2 無監督式學習方式 27
2.2.3 半監督式學習方式 27
2.2.4 強化學習方式 28
2.3 增強泛化能力方法 28
2.3.1 泛化能力與泛化誤差 28
2.3.2 擬合 29
2.3.3 逼近正確擬合的方法 29
2.3.4 超參數和驗證集 31
2.4 神經網絡模型基礎 33
2.4.1 神經網絡模型及特點 33
2.4.2 學習方式與學習規則 39
2.4.3 神經網絡學習原理 47
2.5 深度學習 48
2.5.1 神經網絡與深度學習 48
2.5.2 深度學習在LLM中的應用 51
2.6 模型評價指標 52
2.6.1 混淆矩陣 52
2.6.2 評價模型的主要參數 53
本章小結 55
第3章 註意力機制 56
3.1 編碼器?解碼器架構 56
3.1.1 編碼器功能與解碼器功能 57
3.1.2 編碼器?解碼器框架 57
3.1.3 序列到序列模型 61
3.2 註意力機制特點與計算 63
3.2.1 註意力機制特點 63
3.2.2 註意力機制的計算過程 64
3.3 自註意力模型 67
3.3.1 自註意力機制的核心思想 67
3.3.2 自註意力模型計算 67
3.3.3 註意力機制與自註意力機制比較 71
3.3.4 多頭註意力計算 71
3.4 NLP註意力機制 74
3.4.1 軟註意力機制 74
3.4.2 硬註意力機制 75
3.4.3 局部註意力機制 77
3.4.4 點積註意力機制 78
3.4.5 加性註意力機制 79
3.4.6 稀疏註意力機制 80
3.5 註意力機制與編碼器?解碼器結構 81
3.5.1 在編碼器?解碼器中引入註意力機制 81
3.5.2 註意力機制的優勢與應用場景 82
本章小結 83
第4章 殘差連接與逐層歸一化 84
4.1 逐層歸一化 84
4.1.1 BN的計算過程與訓練 85
4.1.2 BN層的作用 86
4.2 殘差與殘差分析 87
4.2.1 殘差 87
4.2.2 殘差分析 88
4.3 殘差模塊 89
4.3.1 殘差模塊的結構 89
4.3.2 殘差模塊的類型 91
4.3.3 殘差模塊的優勢 93
4.4 逐層歸一化與殘差連接在LLM中的應用 94
4.4.1 逐層歸一化在LLM中的應用 94
4.4.2 殘差連接在LLM中的應用 94
本章小結 95
第5章 Transformer模型 96
5.1 Transformer模型術語與特點 96
5.1.1 Transformer模型術語 96
5.1.2 Transformer模型特點 97
5.2 Transformer模型結構 97
5.2.1 Transformer模型架構 98
5.2.2 Transformer模型位置向量 98
5.2.3 Transformer模型編碼器 101
5.2.4 Transformer模型解碼器 106
5.2.5 基於Transformer模型的機器翻譯 114
5.3 Transformer模型推理與訓練 117
5.3.1 Transformer模型推理 117
5.3.2 Transformer模型訓練所涉及的結構 119
5.3.3 Transformer模型訓練關鍵步驟 123
5.3.4 Transformer模型並行訓練與測試 124
5.4 Transformer-XL模型 126
5.4.1 長文本問題與解決策略 126
5.4.2 Transformer-XL模型技術 127
本章小結 135
第6章 預訓練語言模型 137
6.1 PLM特點、結構與分類 138
6.1.1 PLM特點 138
6.1.2 PLM結構 140
6.1.3 PLM分類 141
6.2 自回歸語言模型 142
6.2.1 自回歸語言模型原理 142
6.2.2 自回歸語言模型結構 143
6.2.3 解碼器自回歸語言模型構建過程 144
6.2.4 訓練和推理的局限性 145
6.3 自編碼語言模型 145
6.3.1 自編碼語言模型原理 145
6.3.2 自編碼語言模型結構 145
6.3.3 自編碼語言模型訓練 146
6.4 編碼器?解碼器預訓練語言模型 146
6.4.1 編碼器?解碼器預訓練語言模型原理 146
6.4.2 編碼器?解碼器預訓練語言模型結構 148
6.5 前綴語言模型 148
6.5.1 前綴語言模型原理 148
6.5.2 前綴語言模型結構 149
6.6 排列語言模型 150
6.6.1 排列語言模型原理 151
6.6.2 排列語言模型結構 151
6.6.3 排列語言模型的特點與應用 153
6.6.4 排列語言模型結構比較 153
6.7 PLM訓練 153
6.7.1 預訓練過程與作用 154
6.7.2 預訓練策略 156
6.7.3 預訓練與微調比較 158
6.8 PLM微調 158
6.8.1 微調方法分類 158
6.8.2 高效微調 159
6.8.3 P-Tuning微調 160
6.8.4 指令微調 161
6.8.5 LoRA微調 163
6.8.6 前綴調優 165
6.8.7 Prompt微調 166
6.8.8 RLHF微調 170
6.8.9 微調輸出層 171
6.9 PLM應用方法 172
6.9.1 PLM的應用過程 172
6.9.2 應用於文本生成過程 173
本章小結 174
第7章 LLM結構與訓練 175
7.1 LLM結構 175
7.1.1 LLM架構 175
7.1.2 LLM架構選擇 177
7.1.3 LLM構建 178
7.1.4 LLM評估 179
7.2 LLM結構優化 181
7.2.1 LLM優化目標 181
7.2.2 LLM優化部分介紹 182
7.2.3 LLM數據增強 194
7.2.4 LLM分詞器 196
7.2.5 LLM數據預處理 200
7.3 詞向量 203
7.3.1 自然語言表示學習 203
7.3.2 Word2Vec模型詞向量 204
7.3.3 靜態詞向量與動態詞向量 206
7.4 LLM訓練 206
7.4.1 LLM訓練的基本策略與方法 206
7.4.2 LLM的分布訓練 208
7.4.3 LLM的並行訓練 209
7.4.4 LLM的分布式並行訓練 210
本章小結 212
第8章 遷移學習 213
8.1 遷移學習概述 213
8.1.1 同分布數據 213
8.1.2 遷移學習原理 214
8.2 遷移學習分類與實現 217
8.2.1 遷移學習分類準則 217
8.2.2 典型的遷移學習 218
8.2.3 遷移學習的實現 221
8.3 深度遷移學習 222
8.3.1 深度神經網絡的可遷移性 222
8.3.2 深度遷移學習的自適應方法 226
8.3.3 生成對抗遷移網絡 229
8.4 遷移學習的應用場景與方法 231
8.4.1 遷移學習的應用場景 231
8.4.2 遷移學習方法 231
8.4.3 遷移學習在LLM中的應用 232
本章小結 234
第9章 人類反饋強化學習 235
9.1 強化學習原理 236
9.1.1 智能體及其特性 236
9.1.2 強化學習模型與工作過程 237
9.1.3 強化學習算法分類 240
9.2 SARSA算法 241
9.2.1 SARSA算法基本原理 242
9.2.2 SARSA算法流程 243
9.2.3 SARSA(λ)算法 246
9.3 Q-Learning算法 248
9.3.1 Q-Learning算法基本原理 249
9.3.2 Q-Learning算法流程 250
9.3.3 Q-Learning算法與SARSA算法比較 252
9.4 基於人類反饋強化學習的模型與算法 252
9.4.1 人類反饋強化學習模型 253
9.4.2 人類反饋強化學習算法 253
9.4.3 基於人類反饋強化學習算法的LLM預訓練 254
9.4.4 近端策略優化算法 257
9.4.5 人類反饋強化學習模型的優勢與特點 261
本章小結 264
第10章 元學習 265
10.1 元學習概述 265
10.1.1 元學習的基本原理 265
10.1.2 元學習的基本特點 266
10.2 元學習基本方法 268
10.2.1 元學習的主要工作 268
10.2.2 元學習過程 270
10.3 MAML模型 273
10.3.1 MAML模型的相關概念 273
10.3.2 MAML算法分析 275
10.3.3 MAML算法流程 276
10.4 小樣本學習 278
10.4.1 問題的提出與先驗範式的構建 278
10.4.2 小樣本學習方法 279
10.4.3 小樣本相似度學習 282
10.5 元學習的應用 285
10.5.1 元學習在LLM中的主要應用場景 285
10.5.2 元學習在LLM中的應用實例 286
本章小結 287
第11章 GPT系列LLM 288
11.1 GPT系列模型概述 288
11.1.1 GPT系列模型的特點 289
11.1.2 GPT系列模型的結構 290
11.1.3 GPT系列模型的訓練過程 291
11.2 GPT-1模型(2018) 293
11.2.1 GPT-1模型的特點 293
11.2.2 GPT-1模型的結構與訓練 294
11.2.3 GPT-1不同下遊任務的輸入轉換 298
11.3 GPT-2模型(2019) 298
11.3.1 GPT-2模型的特點 298
11.3.2 GPT-2模型的結構 299
11.3.3 Zero-Shot方法 302
11.4 GPT-3模型(2020) 303
11.4.1 GPT-3模型的特點 303
11.4.2 GPT-3模型的結構 304
11.4.3 GPT-3模型訓練核心突破 304
11.5 GPT-3.5模型(2023) 307
11.5.1 GPT-3.5模型的特點 307
11.5.2 GPT-3.5模型的結構 308
11.5.3 GPT-3.5模型訓練 309
11.6 ChatGPT模型 311
11.6.1 ChatGPT模型的主要特點 311
11.6.2 ChatGPT模型的訓練過程 312
11.7 GPT-4模型 313
11.7.1 GPT-4模型的創新 313
11.7.2 GPT-4模型的應用場景展望 314
11.7.3 GPT能力進化路徑 315
本章小結 316
第12章 BERT模型 317
12.1 BERT模型特點與結構 317
12.1.1 BERT模型的特點 317
12.1.2 BERT模型是語言表示模型 318
12.1.3 BERT模型的上下遊任務 320
12.2 BERT模型結構與目標函數 321
12.2.1 BERT模型的結構 321
12.2.2 BERT模型目標函數 323
12.3 BERT模型輸入 325
12.3.1 BERT模型嵌入 325
12.3.2 BERT模型輸入過程 328
12.4 BERT模型預訓練 329
12.4.1 掩碼語言模型任務訓練 329
12.4.2 下一句預測任務訓練 331
12.5 BERT模型的微調 332
12.5.1 BERT模型的微調任務 332
12.5.2 BERT模型的微調過程 333
12.6 上下文依賴與詞多義性問題及其解決方法 334
12.6.1 上下文依賴與詞多義性問題 334
12.6.2 BERT模型解決上下文依賴問題 335
12.6.3 BERT模型解決詞多義性問題 336
本章小結 336
第13章 T5模型 337
13.1 T5模型的特點與功能 337
13.1.1 T5模型的主要特點 338
13.1.2 T5模型的主要功能 338
13.1.3 統一的文本到文本範式 339
13.1.4 T5模型的優勢 340
13.2 T5模型理念與結構 341
13.2.1 T5模型的核心理念 341
13.2.2 T5模型的結構 342
13.2.3 T5模型在Transformer模型上的結構改變 344
13.3 T5模型訓練 347
13.3.1 T5模型訓練特點 347
13.3.2 T5模型訓練過程 348
13.3.3 T5模型訓練的長文本處理 350
13.3.4 T5模型預訓練 350
13.3.5 T5模型微調 352
13.3.6 T5模型訓練數據集 354
13.4 T5模型與GPT模型、BERT模型比較 356
13.4.1 T5模型與GPT模型比較 356
13.4.2 T5模型與BERT模型比較 357
13.5 T5模型應用 358
13.5.1 T5模型應用領域 358
13.5.2 T5模型應用需考慮的因素 359
本章小結 359
第14章 統一語言模型 360
14.1 UniLM模型概述 360
14.1.1 UniLM模型的特點 360
14.1.2 UniLM模型的功能 361
14.2 UniLM模型結構 363
14.2.1 UniLM模型架構 363
14.2.2 UniLM模型結構與創新 364
14.2.3 共享Transformer模型網絡 365
14.3 掩碼模式技術 366
14.3.1 掩碼模式技術關鍵點 366
14.3.2 UniLM模型掩碼模式實現方式 368
14.3.3 UniLM模型自註意力掩碼 370
14.4 UniLM模型輸入與訓練 373
14.4.1 UniLM模型的輸入表示 373
14.4.2 UniLM模型的預訓練目標與任務 375
14.4.3 UniLM模型微調 378
14.4.4 UniLM模型的零樣本學習能力 379
本章小結 381
第15章 提示工程 382
15.1 提示工程概述 382
15.1.1 提示詞與提示工程 382
15.1.2 LLM文本生成的解碼策略 384
15.2 提示詞格式 389
15.2.1 提示詞基本格式 389
15.2.2 指令型提示詞格式 390
15.2.3 問題型提示詞格式 390
15.2.4 描述型提示詞格式 390
15.2.5 提示詞增強格式 391
15.2.6 不同任務的提示詞 395
15.2.7 優質提示詞 396
15.3 提示工程技術 397
15.3.1 少樣本提示 398
15.3.2 思維鏈提示 398
15.3.3 自洽性提示 400
15.3.4 提示模板設計 401
本章小結 404
參考文獻 406