現代自然語言處理
王誌春,於恒,姜文斌
- 出版商: 清華大學
- 出版日期: 2025-12-01
- 售價: $474
- 語言: 簡體中文
- 頁數: 276
- ISBN: 730270466X
- ISBN-13: 9787302704669
-
相關分類:
Natural Language Processing
下單後立即進貨 (約4週~6週)
商品描述
"本書是一部系統闡述自然語言處理與大語言模型原理、方法及應用的教材。全書共分為8 章: 第1 章緒論,介紹自然語言處理的發展歷程、研究內容與基本方法,梳理了從規則方法、機器學習 方法到深度學習與大模型時代的技術演進;第2 章數學基礎,系統講解了自然語言處理所需的數學 工具,包括概率論、線性代數與信息論基礎;第3 章神經網絡基礎,介紹神經元結構、前饋與卷積 網絡、循環網絡及註意力機制;第4 章語言模型,深入探討統計語言模型、詞向量模型以及神經網 絡語言模型;第5 章大語言模型基礎,系統分析大模型的宏觀與微觀發展、典型架構、訓練流程與 優化方法,並介紹提示工程與指令微調等關鍵技術;第6 章大語言模型進階,進一步講解強化學習、 思維鏈推理、大模型智能體、分布式訓練與模型評估體系;第7 章多模態大模型,擴展至跨模態理 解與生成,涵蓋視覺、文本等多源信息的融合與建模方法;第8 章現代自然語言處理基礎任務,結 合前沿模型介紹詞性標註、命名實體識別、句法分析、語義分析、信息檢索、智能問答與機器翻譯 等典型任務及實現方法。 本書內容體系化、覆蓋面廣,既註重理論講解,又結合大量實例與模型演進分析,適合作為高 等院校人工智能、計算機科學與技術等專業的教材或研究生課程參考書,也可作為自然語言處理、 大模型研發及人工智能應用領域從業者的自學與進階用書。 "
作者簡介
王誌春,北京師範大學人工智能學院副教授、博士生導師,智能技術與教育應用教育部工程研究中心副主任。研究方向包括自然語言處理、大語言模型、知識工程等。主持3項國家自然科學基金項目、5項企業合作項目,參與多項國家重點研發項目及國家級科研項目,發表學術論文50余篇。目前為中國中文信息學會理事、中國中文信息學會語言與知識計算專業委員會委員、社會媒體處理專業委員會委員。
目錄大綱
目錄
第1 章緒論/ 1
1.1 深度學習的歷史/ 1
1.2 深度學習的應用/ 4
1.3 深度學習研究的前沿與趨勢/ 7
1.3.1 深度學習研究的發展趨勢/ 8
1.3.2 深度學習研究的挑戰/ 10
第2 章基礎知識/ 12
2.1 學習算法與評價方法/ 12
2.1.1 任務與機器學習算法/ 12
2.1.2 性能度量與評價指標/ 14
2.2 假設空間、過擬合和欠擬合/ 22
2.3 偏差和方差/ 23
2.3.1 偏差、方差與噪聲的定義/ 23
2.3.2 泛化誤差的分解/ 23
2.3.3 偏差與方差的權衡/ 24
2.4 最大似然估計/ 24
2.5 貝葉斯決策/ 27
2.5.1 貝葉斯定理/ 27
2.5.2 貝葉斯分類器/ 27
2.5.3 最小化錯誤率/ 28
2.5.4 貝葉斯風險/ 28
2.6 無監督、半監督和自監督學習/ 30
2.6.1 無監督學習/ 30
2.6.2 半監督學習/ 32
2.6.3 自監督學習/ 33
2.7 損失函數/ 34
2.7.1 分類任務/ 34
2.7.2 回歸任務/ 35
2.7.3 密度估計任務/ 36
2.7.4 目標檢測任務/ 36
2.7.5 圖像分割任務/ 37
2.7.6 自然語言處理任務/ 37
2.8 習題/ 38
第3 章經典神經網絡/ 39
3.1 感知機算法/ 39
3.1.1 基本模型/ 39
3.1.2 學習策略/ 40
3.1.3 感知機的特點與局限/ 40
3.2 多層感知機/ 41
3.2.1 基本結構/ 41
3.2.2 隱含層的作用/ 41
3.3 反向傳播/ 42
3.3.1 鏈式法則/ 42
3.3.2 反向傳播算法/ 42
3.3.3 反向傳播示例/ 45
3.3.4 反向傳播面臨的挑戰/ 47
3.4 典型優化算法/ 47
3.4.1 梯度下降法/ 48
3.4.2 牛頓法/ 49
3.4.3 擬牛頓法/ 50
3.4.4 高斯-牛頓法/ 52
3.4.5 L-M 方法/ 54
3.5 激活函數/ 55
3.5.1 Sigmoid 型函數/ 56
3.5.2 ReLU 型函數/ 58
3.5.3 門控型函數/ 60
3.5.4 Mish 函數/ 62
3.5.5 Maxout 單元/ 63
3.5.6 AconC 函數/ 63
3.5.7 各種激活函數的比較/ 64
3.6 習題/ 65
第4 章深度卷積網絡/ 67
4.1 卷積運算及其特性/ 67
4.1.1 卷積運算/ 67
4.1.2 填充/ 68
4.1.3 步幅/ 69
4.1.4 卷積的特性/ 69
4.2 卷積函數的變體/ 72
4.2.1 空洞卷積/ 72
4.2.2 分組卷積/ 72
4.2.3 深度可分離卷積/ 74
4.2.4 可形變卷積/ 75
4.3 池化/ 75
4.3.1 池化的概念/ 75
4.3.2 池化的意義/ 76
4.3.3 池化層反向傳播/ 77
4.4 歸一化技術/ 77
4.4.1 批量歸一化/ 78
4.4.2 其他歸一化技術/ 78
4.5 卷積網絡架構設計/ 79
4.5.1 LeNet-5 / 79
4.5.2 AlexNet / 80
4.5.3 VGGNet / 81
4.5.4 殘差網絡/ 82
4.5.5 密集連接網絡/ 82
4.5.6 Squeeze-and-Excitation Network / 84
4.5.7 MobileNet / 84
4.5.8 EfficientNet / 85
4.5.9 High-Resolution Network / 86
4.5.10 ConvNeXt / 86
4.6 卷積網絡的典型應用/ 87
4.6.1 圖像分類/ 87
4.6.2 目標檢測/ 88
4.6.3 圖像分割/ 88
4.7 習題/ 89
第5 章循環神經網絡/ 90
5.1 經典循環神經網絡/ 91
5.1.1 循環神經網絡的兩種設計模式/ 91
5.1.2 前向傳播和反向傳播/ 93
5.1.3 深度循環網絡/ 94
5.1.4 雙向循環網絡/ 96
5.1.5 基於編碼-解碼的序列到序列架構/ 97
5.2 長短時記憶網絡/ 98
5.2.1 長序列的挑戰/ 98
5.2.2 長短時記憶網絡/ 99
5.3 門控網絡/ 101
5.4 帶外置記憶的循環網絡/ 102
5.5 Mamba 架構/ 103
5.6 習題/ 104
第6 章Transformer / 106
6.1 自註意力機制/ 106
6.2 位置編碼/ 108
6.3 Transformer 結構/ 109
6.3.1 前饋層/ 111
6.3.2 殘差連接與層歸一化/ 111
6.3.3 編碼器和解碼器結構/ 111
6.4 Transformer 與大語言模型/ 112
6.4.1 Encoder-only 架構/ 112
6.4.2 Encoder-Decoder 架構/ 113
6.4.3 Decoder-only 架構/ 114
6.5 視覺Transformer / 115
6.5.1 視覺Transformer 架構/ 116
6.5.2 典型視覺Transformer 模型/ 117
6.6 視覺Transformer 與卷積神經網絡的關系/ 117
6.6.1 視覺Transformer 與卷積神經網絡結構的異同/ 117
6.6.2 視覺Transformer 與卷積神經網絡各自的優勢/ 119
6.7 Transformer 的未來發展趨勢/ 120
6.8 習題/ 120
第7 章圖神經網絡/ 121
7.1 圖的表示/ 122
7.2 圖機器學習任務/ 122
7.2.1 節點分類/ 123
7.2.2 關系預測/ 123
7.2.3 社群檢測/ 123
7.2.4 圖級別任務/ 123
7.3 圖神經網絡的基本框架/ 124
7.3.1 神經消息傳遞/ 124
7.3.2 節點嵌入的疊代更新過程/ 125
7.3.3 聚合函數/ 125
7.4 典型圖神經網絡/ 127
7.4.1 圖卷積神經網絡/ 127
7.4.2 圖采樣與聚合網絡/ 128
7.4.3 圖註意力網絡/ 128
7.5 過度平滑問題/ 130
7.5.1 跳層連接/ 131
7.5.2 圖循環神經網絡/ 133
7.6 圖神經網絡的應用與趨勢/ 133
7.6.1 圖神經網絡的典型應用/ 133
7.6.2 圖神經網絡的發展趨勢/ 134
7.7 習題/ 134
第8 章深度生成模型/ 136
8.1 變分自編碼器/ 136
8.1.1 自編碼器/ 137
8.1.2 基本結構/ 137
8.1.3 目標函數/ 138
8.1.4 重參數化技巧/ 139
8.1.5 變分自編碼器的變種/ 139
8.2 生成對抗網絡/ 140
8.2.1 生成器和判別器/ 140
8.2.2 對抗訓練的目標函數/ 141
8.2.3 訓練過程/ 143
8.2.4 生成對抗網絡的變種/ 143
8.3 擴散概率模型/ 145
8.3.1 正向擴散過程/ 145
8.3.2 逆向擴散過程/ 146
8.3.3 訓練目標/ 147
8.3.4 擴散模型的改進形式/ 150
8.4 基於詞元的生成模型/ 151
8.4.1 基於詞元的生成方法/ 151
8.4.2 自回歸生成模型/ 152
8.4.3 非自回歸生成模型/ 152
8.5 生成模型的評價指標/ 153
8.5.1 Inception 分數/ 153
8.5.2 模式分數/ 154
8.5.3 核最大均值差異/ 154
8.5.4 Wasserstein 距離/ 155
8.5.5 Fréchet Inception 距離/ 155
8.5.6 峰值信噪比/ 156
8.5.7 結構相似性/ 156
8.5.8 CLIP 分數/ 156
8.6 生成模型的應用與趨勢/ 157
8.6.1 生成模型的典型應用/ 157
8.6.2 生成模型的未來發展趨勢/ 159
8.7 習題/ 160
第9 章深度神經網絡的優化方法/ 162
9.1 深度神經網絡優化的挑戰/ 162
9.1.1 梯度懸崖/ 162
9.1.2 梯度消失和梯度爆炸/ 163
9.2 局部極小值與鞍點/ 163
9.2.1 局部極小值/ 164
9.2.2 鞍點/ 164
9.3 損失函數曲面分析/ 165
9.4 隨機梯度方法/ 166
9.5 動量算法/ 168
9.6 自適應學習率優化算法/ 170
9.7 習題/ 173
第10 章深度學習中的正則化/ 174
10.1 參數範數懲罰/ 174
10.1.1 L2 參數正則化/ 175
10.1.2 L1 參數正則化/ 176
10.1.3 作為約束的範數懲罰/ 177
10.2 數據擴增/ 178
10.2.1 圖像空間中的數據擴增/ 178
10.2.2 特征空間中的數據擴增/ 180
10.3 模型集成學習/ 180
10.3.1 多模型生成策略/ 181
10.3.2 多模型集成方法/ 182
10.4 隨機失活方法/ 183
10.5 其他正則化方法/ 184
10.6 習題/ 185
第11 章自監督學習/ 186
11.1 自監督學習概述/ 186
11.1.1 監督學習範式的困難和局限/ 186
11.1.2 自監督和無監督學習/ 187
11.1.3 自監督學習與預訓練-微調範式/ 187
11.2 計算機視覺中的自監督學習/ 188
11.2.1 對比學習/ 188
11.2.2 掩碼學習/ 190
11.2.3 其他視覺自監督學習方法/ 191
11.3 自然語言處理中的自監督學習/ 193
11.3.1 詞嵌入技術/ 194
11.3.2 掩碼文本建模/ 194
11.3.3 自回歸文本建模/ 195
11.4 多模態學習中的自監督學習/ 196
11.4.1 CLIP / 196
11.4.2 ALBEF / 198
11.4.3 VLMo / 199
11.4.4 BLIP / 200
11.5 自監督學習的發展趨勢/ 201
11.6 習題/ 202
第12 章深度強化學習/ 203
12.1 任務與獎勵/ 203
12.2 馬爾可夫決策模型/ 205
12.2.1 馬爾可夫決策過程/ 205
12.2.2 回報/ 207
12.2.3 價值函數與貝爾曼方程/ 208
12.3 策略疊代和價值疊代/ 209
12.3.1 價值疊代/ 210
12.3.2 策略疊代/ 210
12.3.3 廣義策略疊代/ 212
12.4 策略學習/ 213
12.4.1 策略梯度定理/ 214
12.4.2 REINFORCE:蒙特卡洛策略梯度/ 215
12.5 離線強化學習/ 216
12.6 模仿學習/ 216
12.6.1 行為克隆/ 218
12.6.2 逆強化學習/ 219
12.6.3 對抗式模仿學習/ 219
12.7 強化學習與深度學習的結合/ 220
12.8 深度強化學習應用與展望/ 220
12.8.1 圍棋/ 221
12.8.2 視頻遊戲/ 221
12.8.3 人類反饋強化學習/ 221
12.8.4 機器人控制/ 222
12.9 習題/ 222
第13 章深度神經網絡的高效計算/ 223
13.1 參數量化/ 223
13.1.1 常見的量化實現方式/ 223
13.1.2 量化方法分類/ 224
13.1.3 常見的量化方法/ 225
13.2 網絡剪枝/ 226
13.2.1 剪枝的基本類型/ 226
13.2.2 神經網絡剪枝算法/ 227
13.3 知識蒸餾/ 231
13.3.1 神經網絡中的知識/ 232
13.3.2 蒸餾方法/ 233
13.3.3 師生架構/ 234
13.4 重參數化/ 234
13.4.1 基於卷積核分解的重參數化/ 235
13.4.2 多樣化分支合並的重參數化/ 235
13.5 低秩近似/ 237
13.5.1 奇異值分解/ 237
13.5.2 高維張量分解/ 238
13.5.3 低秩適應/ 239
13.6 動態計算/ 239
13.6.1 樣本自適應動態網絡/ 240
13.6.2 空間自適應動態網絡/ 242
13.6.3 時間自適應動態網絡/ 243
13.7 神經架構搜索/ 244
13.7.1 搜索空間/ 245
13.7.2 搜索策略/ 246
13.7.3 性能估計策略/ 247
13.8 習題/ 247
第14 章PyTorch 深度學習框架/ 248
14.1 PyTorch 深度學習框架簡介/ 248
14.1.1 什麼是PyTorch / 248
14.1.2 PyTorch 框架發展歷史/ 249
14.1.3 PyTorch 的特點和優勢/ 249
14.2 張量/ 250
14.2.1 張量初始化/ 250
14.2.2 張量屬性/ 251
14.2.3 張量操作/ 251
14.3 自動求導機制/ 254
14.3.1 自動求導機制簡介/ 254
14.3.2 PyTorch 自動求導機制介紹/ 254
14.4 常用的激活函數/ 256
14.5 常用的神經網絡層/ 257
14.5.1 全連接層/ 257
14.5.2 卷積層/ 257
14.5.3 池化層/ 257
14.5.4 循環神經網絡層/ 258
14.5.5 常用的預訓練模型/ 258
14.6 PyTorch 訓練神經網絡的簡單實例/ 259
14.6.1 前向傳播和損失計算/ 260
14.6.2 反向傳播/ 260
14.6.3 梯度下降/ 262
14.6.4 訓練循環/ 264
14.7 訓練一個真實數據上的圖像分類器/ 265
14.7.1 數據準備/ 265
14.7.2 訓練圖像分類器/ 266
14.8 訓練文本分類器/ 270
14.8.1 訪問原始數據集疊代器/ 270
14.8.2 數據處理的流程/ 270
14.8.3 生成數據批次和疊代器/ 271
14.8.4 定義模型/ 272
14.8.5 實例化模型/ 274
14.8.6 分割數據集並運行模型/ 274
14.8.7 定義模型訓練和評估函數/ 275
14.8.8 訓練模型並評估結果/ 276
14.8.9 用測試數據集評估模型/ 278
14.9 習題/ 279
附錄A 線性代數/ 280
A.1 標量、向量、矩陣和張量/ 280
A.2 矩陣的乘法和逆/ 281
A.3 線性相關和生成子空間/ 282
A.4 範數/ 283
A.5 特征分解/ 283
A.6 奇異值分解/ 284
附錄B 微積分/ 286
B.1 導數與偏導數/ 286
B.1.1 一元函數的導數/ 286
B.1.2 多元函數的偏導數/ 286
B.2 鏈式法則/ 286
B.3 梯度與Hessian 矩陣/ 287
B.3.1 梯度/ 287
B.3.2 Hessian 矩陣/ 287
B.4 常見函數的求導規則/ 287
附錄C 概率統計/ 289
C.1 隨機變量/ 289
C.1.1 定義/ 289
C.1.2 分布函數/ 290
C.1.3 概率質量函數與概率密度函數/ 290
C.1.4 條件獨立性/ 291
C.2 期望、方差和協方差/ 291
C.2.1 期望/ 291
C.2.2 方差/ 292
C.2.3 協方差/ 293
C.3 常用概率分布/ 294
C.3.1 離散型分布/ 294
C.3.2 連續型分布/ 295
C.4 貝葉斯規則/ 296
C.4.1 全概率公式與貝葉斯公式/ 296
C.4.2 連續貝葉斯準則/ 296
C.5 信息論/ 296
C.5.1 香農熵/ 297
C.5.2 互信息/ 297
C.6 結構化概率模型/ 297
C.6.1 貝葉斯網絡/ 298
C.6.2 馬爾可夫隨機場/ 299
參考文獻/ 301







