現代自然語言處理

王誌春,於恒,姜文斌

  • 出版商: 清華大學
  • 出版日期: 2025-12-01
  • 售價: $474
  • 語言: 簡體中文
  • 頁數: 276
  • ISBN: 730270466X
  • ISBN-13: 9787302704669
  • 相關分類: Natural Language Processing
  • 下單後立即進貨 (約4週~6週)

  • 現代自然語言處理-preview-1
  • 現代自然語言處理-preview-2
  • 現代自然語言處理-preview-3
  • 現代自然語言處理-preview-4
  • 現代自然語言處理-preview-5
  • 現代自然語言處理-preview-6
  • 現代自然語言處理-preview-7
現代自然語言處理-preview-1

商品描述

"本書是一部系統闡述自然語言處理與大語言模型原理、方法及應用的教材。全書共分為8 章: 第1 章緒論,介紹自然語言處理的發展歷程、研究內容與基本方法,梳理了從規則方法、機器學習 方法到深度學習與大模型時代的技術演進;第2 章數學基礎,系統講解了自然語言處理所需的數學 工具,包括概率論、線性代數與信息論基礎;第3 章神經網絡基礎,介紹神經元結構、前饋與卷積 網絡、循環網絡及註意力機制;第4 章語言模型,深入探討統計語言模型、詞向量模型以及神經網 絡語言模型;第5 章大語言模型基礎,系統分析大模型的宏觀與微觀發展、典型架構、訓練流程與 優化方法,並介紹提示工程與指令微調等關鍵技術;第6 章大語言模型進階,進一步講解強化學習、 思維鏈推理、大模型智能體、分布式訓練與模型評估體系;第7 章多模態大模型,擴展至跨模態理 解與生成,涵蓋視覺、文本等多源信息的融合與建模方法;第8 章現代自然語言處理基礎任務,結 合前沿模型介紹詞性標註、命名實體識別、句法分析、語義分析、信息檢索、智能問答與機器翻譯 等典型任務及實現方法。 本書內容體系化、覆蓋面廣,既註重理論講解,又結合大量實例與模型演進分析,適合作為高 等院校人工智能、計算機科學與技術等專業的教材或研究生課程參考書,也可作為自然語言處理、 大模型研發及人工智能應用領域從業者的自學與進階用書。 "

作者簡介

王誌春,北京師範大學人工智能學院副教授、博士生導師,智能技術與教育應用教育部工程研究中心副主任。研究方向包括自然語言處理、大語言模型、知識工程等。主持3項國家自然科學基金項目、5項企業合作項目,參與多項國家重點研發項目及國家級科研項目,發表學術論文50余篇。目前為中國中文信息學會理事、中國中文信息學會語言與知識計算專業委員會委員、社會媒體處理專業委員會委員。

目錄大綱

目錄

第1 章緒論/ 1

1.1 深度學習的歷史/ 1

1.2 深度學習的應用/ 4

1.3 深度學習研究的前沿與趨勢/ 7

1.3.1 深度學習研究的發展趨勢/ 8

1.3.2 深度學習研究的挑戰/ 10

第2 章基礎知識/ 12

2.1 學習算法與評價方法/ 12

2.1.1 任務與機器學習算法/ 12

2.1.2 性能度量與評價指標/ 14

2.2 假設空間、過擬合和欠擬合/ 22

2.3 偏差和方差/ 23

2.3.1 偏差、方差與噪聲的定義/ 23

2.3.2 泛化誤差的分解/ 23

2.3.3 偏差與方差的權衡/ 24

2.4 最大似然估計/ 24

2.5 貝葉斯決策/ 27

2.5.1 貝葉斯定理/ 27

2.5.2 貝葉斯分類器/ 27

2.5.3 最小化錯誤率/ 28

2.5.4 貝葉斯風險/ 28

2.6 無監督、半監督和自監督學習/ 30

2.6.1 無監督學習/ 30

2.6.2 半監督學習/ 32

2.6.3 自監督學習/ 33

2.7 損失函數/ 34

2.7.1 分類任務/ 34

2.7.2 回歸任務/ 35

2.7.3 密度估計任務/ 36

2.7.4 目標檢測任務/ 36

2.7.5 圖像分割任務/ 37

2.7.6 自然語言處理任務/ 37

2.8 習題/ 38

第3 章經典神經網絡/ 39

3.1 感知機算法/ 39

3.1.1 基本模型/ 39

3.1.2 學習策略/ 40

3.1.3 感知機的特點與局限/ 40

3.2 多層感知機/ 41

3.2.1 基本結構/ 41

3.2.2 隱含層的作用/ 41

3.3 反向傳播/ 42

3.3.1 鏈式法則/ 42

3.3.2 反向傳播算法/ 42

3.3.3 反向傳播示例/ 45

3.3.4 反向傳播面臨的挑戰/ 47

3.4 典型優化算法/ 47

3.4.1 梯度下降法/ 48

3.4.2 牛頓法/ 49

3.4.3 擬牛頓法/ 50

3.4.4 高斯-牛頓法/ 52

3.4.5 L-M 方法/ 54

3.5 激活函數/ 55

3.5.1 Sigmoid 型函數/ 56

3.5.2 ReLU 型函數/ 58

3.5.3 門控型函數/ 60

3.5.4 Mish 函數/ 62

3.5.5 Maxout 單元/ 63

3.5.6 AconC 函數/ 63

3.5.7 各種激活函數的比較/ 64

3.6 習題/ 65

第4 章深度卷積網絡/ 67

4.1 卷積運算及其特性/ 67

4.1.1 卷積運算/ 67

4.1.2 填充/ 68

4.1.3 步幅/ 69

4.1.4 卷積的特性/ 69

4.2 卷積函數的變體/ 72

4.2.1 空洞卷積/ 72

4.2.2 分組卷積/ 72

4.2.3 深度可分離卷積/ 74

4.2.4 可形變卷積/ 75

4.3 池化/ 75

4.3.1 池化的概念/ 75

4.3.2 池化的意義/ 76

4.3.3 池化層反向傳播/ 77

4.4 歸一化技術/ 77

4.4.1 批量歸一化/ 78

4.4.2 其他歸一化技術/ 78

4.5 卷積網絡架構設計/ 79

4.5.1 LeNet-5 / 79

4.5.2 AlexNet / 80

4.5.3 VGGNet / 81

4.5.4 殘差網絡/ 82

4.5.5 密集連接網絡/ 82

4.5.6 Squeeze-and-Excitation Network / 84

4.5.7 MobileNet / 84

4.5.8 EfficientNet / 85

4.5.9 High-Resolution Network / 86

4.5.10 ConvNeXt / 86

4.6 卷積網絡的典型應用/ 87

4.6.1 圖像分類/ 87

4.6.2 目標檢測/ 88

4.6.3 圖像分割/ 88

4.7 習題/ 89

第5 章循環神經網絡/ 90

5.1 經典循環神經網絡/ 91

5.1.1 循環神經網絡的兩種設計模式/ 91

5.1.2 前向傳播和反向傳播/ 93

5.1.3 深度循環網絡/ 94

5.1.4 雙向循環網絡/ 96

5.1.5 基於編碼-解碼的序列到序列架構/ 97

5.2 長短時記憶網絡/ 98

5.2.1 長序列的挑戰/ 98

5.2.2 長短時記憶網絡/ 99

5.3 門控網絡/ 101

5.4 帶外置記憶的循環網絡/ 102

5.5 Mamba 架構/ 103

5.6 習題/ 104

第6 章Transformer / 106

6.1 自註意力機制/ 106

6.2 位置編碼/ 108

6.3 Transformer 結構/ 109

6.3.1 前饋層/ 111

6.3.2 殘差連接與層歸一化/ 111

6.3.3 編碼器和解碼器結構/ 111

6.4 Transformer 與大語言模型/ 112

6.4.1 Encoder-only 架構/ 112

6.4.2 Encoder-Decoder 架構/ 113

6.4.3 Decoder-only 架構/ 114

6.5 視覺Transformer / 115

6.5.1 視覺Transformer 架構/ 116

6.5.2 典型視覺Transformer 模型/ 117

6.6 視覺Transformer 與卷積神經網絡的關系/ 117

6.6.1 視覺Transformer 與卷積神經網絡結構的異同/ 117

6.6.2 視覺Transformer 與卷積神經網絡各自的優勢/ 119

6.7 Transformer 的未來發展趨勢/ 120

6.8 習題/ 120

第7 章圖神經網絡/ 121

7.1 圖的表示/ 122

7.2 圖機器學習任務/ 122

7.2.1 節點分類/ 123

7.2.2 關系預測/ 123

7.2.3 社群檢測/ 123

7.2.4 圖級別任務/ 123

7.3 圖神經網絡的基本框架/ 124

7.3.1 神經消息傳遞/ 124

7.3.2 節點嵌入的疊代更新過程/ 125

7.3.3 聚合函數/ 125

7.4 典型圖神經網絡/ 127

7.4.1 圖卷積神經網絡/ 127

7.4.2 圖采樣與聚合網絡/ 128

7.4.3 圖註意力網絡/ 128

7.5 過度平滑問題/ 130

7.5.1 跳層連接/ 131

7.5.2 圖循環神經網絡/ 133

7.6 圖神經網絡的應用與趨勢/ 133

7.6.1 圖神經網絡的典型應用/ 133

7.6.2 圖神經網絡的發展趨勢/ 134

7.7 習題/ 134

第8 章深度生成模型/ 136

8.1 變分自編碼器/ 136

8.1.1 自編碼器/ 137

8.1.2 基本結構/ 137

8.1.3 目標函數/ 138

8.1.4 重參數化技巧/ 139

8.1.5 變分自編碼器的變種/ 139

8.2 生成對抗網絡/ 140

8.2.1 生成器和判別器/ 140

8.2.2 對抗訓練的目標函數/ 141

8.2.3 訓練過程/ 143

8.2.4 生成對抗網絡的變種/ 143

8.3 擴散概率模型/ 145

8.3.1 正向擴散過程/ 145

8.3.2 逆向擴散過程/ 146

8.3.3 訓練目標/ 147

8.3.4 擴散模型的改進形式/ 150

8.4 基於詞元的生成模型/ 151

8.4.1 基於詞元的生成方法/ 151

8.4.2 自回歸生成模型/ 152

8.4.3 非自回歸生成模型/ 152

8.5 生成模型的評價指標/ 153

8.5.1 Inception 分數/ 153

8.5.2 模式分數/ 154

8.5.3 核最大均值差異/ 154

8.5.4 Wasserstein 距離/ 155

8.5.5 Fréchet Inception 距離/ 155

8.5.6 峰值信噪比/ 156

8.5.7 結構相似性/ 156

8.5.8 CLIP 分數/ 156

8.6 生成模型的應用與趨勢/ 157

8.6.1 生成模型的典型應用/ 157

8.6.2 生成模型的未來發展趨勢/ 159

8.7 習題/ 160

第9 章深度神經網絡的優化方法/ 162

9.1 深度神經網絡優化的挑戰/ 162

9.1.1 梯度懸崖/ 162

9.1.2 梯度消失和梯度爆炸/ 163

9.2 局部極小值與鞍點/ 163

9.2.1 局部極小值/ 164

9.2.2 鞍點/ 164

9.3 損失函數曲面分析/ 165

9.4 隨機梯度方法/ 166

9.5 動量算法/ 168

9.6 自適應學習率優化算法/ 170

9.7 習題/ 173

第10 章深度學習中的正則化/ 174

10.1 參數範數懲罰/ 174

10.1.1 L2 參數正則化/ 175

10.1.2 L1 參數正則化/ 176

10.1.3 作為約束的範數懲罰/ 177

10.2 數據擴增/ 178

10.2.1 圖像空間中的數據擴增/ 178

10.2.2 特征空間中的數據擴增/ 180

10.3 模型集成學習/ 180

10.3.1 多模型生成策略/ 181

10.3.2 多模型集成方法/ 182

10.4 隨機失活方法/ 183

10.5 其他正則化方法/ 184

10.6 習題/ 185

第11 章自監督學習/ 186

11.1 自監督學習概述/ 186

11.1.1 監督學習範式的困難和局限/ 186

11.1.2 自監督和無監督學習/ 187

11.1.3 自監督學習與預訓練-微調範式/ 187

11.2 計算機視覺中的自監督學習/ 188

11.2.1 對比學習/ 188

11.2.2 掩碼學習/ 190

11.2.3 其他視覺自監督學習方法/ 191

11.3 自然語言處理中的自監督學習/ 193

11.3.1 詞嵌入技術/ 194

11.3.2 掩碼文本建模/ 194

11.3.3 自回歸文本建模/ 195

11.4 多模態學習中的自監督學習/ 196

11.4.1 CLIP / 196

11.4.2 ALBEF / 198

11.4.3 VLMo / 199

11.4.4 BLIP / 200

11.5 自監督學習的發展趨勢/ 201

11.6 習題/ 202

第12 章深度強化學習/ 203

12.1 任務與獎勵/ 203

12.2 馬爾可夫決策模型/ 205

12.2.1 馬爾可夫決策過程/ 205

12.2.2 回報/ 207

12.2.3 價值函數與貝爾曼方程/ 208

12.3 策略疊代和價值疊代/ 209

12.3.1 價值疊代/ 210

12.3.2 策略疊代/ 210

12.3.3 廣義策略疊代/ 212

12.4 策略學習/ 213

12.4.1 策略梯度定理/ 214

12.4.2 REINFORCE:蒙特卡洛策略梯度/ 215

12.5 離線強化學習/ 216

12.6 模仿學習/ 216

12.6.1 行為克隆/ 218

12.6.2 逆強化學習/ 219

12.6.3 對抗式模仿學習/ 219

12.7 強化學習與深度學習的結合/ 220

12.8 深度強化學習應用與展望/ 220

12.8.1 圍棋/ 221

12.8.2 視頻遊戲/ 221

12.8.3 人類反饋強化學習/ 221

12.8.4 機器人控制/ 222

12.9 習題/ 222

第13 章深度神經網絡的高效計算/ 223

13.1 參數量化/ 223

13.1.1 常見的量化實現方式/ 223

13.1.2 量化方法分類/ 224

13.1.3 常見的量化方法/ 225

13.2 網絡剪枝/ 226

13.2.1 剪枝的基本類型/ 226

13.2.2 神經網絡剪枝算法/ 227

13.3 知識蒸餾/ 231

13.3.1 神經網絡中的知識/ 232

13.3.2 蒸餾方法/ 233

13.3.3 師生架構/ 234

13.4 重參數化/ 234

13.4.1 基於卷積核分解的重參數化/ 235

13.4.2 多樣化分支合並的重參數化/ 235

13.5 低秩近似/ 237

13.5.1 奇異值分解/ 237

13.5.2 高維張量分解/ 238

13.5.3 低秩適應/ 239

13.6 動態計算/ 239

13.6.1 樣本自適應動態網絡/ 240

13.6.2 空間自適應動態網絡/ 242

13.6.3 時間自適應動態網絡/ 243

13.7 神經架構搜索/ 244

13.7.1 搜索空間/ 245

13.7.2 搜索策略/ 246

13.7.3 性能估計策略/ 247

13.8 習題/ 247

第14 章PyTorch 深度學習框架/ 248

14.1 PyTorch 深度學習框架簡介/ 248

14.1.1 什麼是PyTorch / 248

14.1.2 PyTorch 框架發展歷史/ 249

14.1.3 PyTorch 的特點和優勢/ 249

14.2 張量/ 250

14.2.1 張量初始化/ 250

14.2.2 張量屬性/ 251

14.2.3 張量操作/ 251

14.3 自動求導機制/ 254

14.3.1 自動求導機制簡介/ 254

14.3.2 PyTorch 自動求導機制介紹/ 254

14.4 常用的激活函數/ 256

14.5 常用的神經網絡層/ 257

14.5.1 全連接層/ 257

14.5.2 卷積層/ 257

14.5.3 池化層/ 257

14.5.4 循環神經網絡層/ 258

14.5.5 常用的預訓練模型/ 258

14.6 PyTorch 訓練神經網絡的簡單實例/ 259

14.6.1 前向傳播和損失計算/ 260

14.6.2 反向傳播/ 260

14.6.3 梯度下降/ 262

14.6.4 訓練循環/ 264

14.7 訓練一個真實數據上的圖像分類器/ 265

14.7.1 數據準備/ 265

14.7.2 訓練圖像分類器/ 266

14.8 訓練文本分類器/ 270

14.8.1 訪問原始數據集疊代器/ 270

14.8.2 數據處理的流程/ 270

14.8.3 生成數據批次和疊代器/ 271

14.8.4 定義模型/ 272

14.8.5 實例化模型/ 274

14.8.6 分割數據集並運行模型/ 274

14.8.7 定義模型訓練和評估函數/ 275

14.8.8 訓練模型並評估結果/ 276

14.8.9 用測試數據集評估模型/ 278

14.9 習題/ 279

附錄A 線性代數/ 280

A.1 標量、向量、矩陣和張量/ 280

A.2 矩陣的乘法和逆/ 281

A.3 線性相關和生成子空間/ 282

A.4 範數/ 283

A.5 特征分解/ 283

A.6 奇異值分解/ 284

附錄B 微積分/ 286

B.1 導數與偏導數/ 286

B.1.1 一元函數的導數/ 286

B.1.2 多元函數的偏導數/ 286

B.2 鏈式法則/ 286

B.3 梯度與Hessian 矩陣/ 287

B.3.1 梯度/ 287

B.3.2 Hessian 矩陣/ 287

B.4 常見函數的求導規則/ 287

附錄C 概率統計/ 289

C.1 隨機變量/ 289

C.1.1 定義/ 289

C.1.2 分布函數/ 290

C.1.3 概率質量函數與概率密度函數/ 290

C.1.4 條件獨立性/ 291

C.2 期望、方差和協方差/ 291

C.2.1 期望/ 291

C.2.2 方差/ 292

C.2.3 協方差/ 293

C.3 常用概率分布/ 294

C.3.1 離散型分布/ 294

C.3.2 連續型分布/ 295

C.4 貝葉斯規則/ 296

C.4.1 全概率公式與貝葉斯公式/ 296

C.4.2 連續貝葉斯準則/ 296

C.5 信息論/ 296

C.5.1 香農熵/ 297

C.5.2 互信息/ 297

C.6 結構化概率模型/ 297

C.6.1 貝葉斯網絡/ 298

C.6.2 馬爾可夫隨機場/ 299

參考文獻/ 301