自然語言處理(微課版)——基於深度學習與大語言模型

魏巍

  • 出版商: 人民郵電
  • 出版日期: 2026-01-01
  • 售價: $312
  • 語言: 簡體中文
  • 頁數: 185
  • ISBN: 7115684251
  • ISBN-13: 9787115684257
  • 相關分類: Natural Language Processing
  • 下單後立即進貨 (約4週~6週)

  • 自然語言處理(微課版)——基於深度學習與大語言模型-preview-1
自然語言處理(微課版)——基於深度學習與大語言模型-preview-1

相關主題

商品描述

本書與深度學習、大語言模型技術緊密結合,確保內容的先進性和實用性。通過系統化的介紹,按照自然語言處理核心任務的邏輯順序,引導讀者深入了解並掌握最新技術。 本書內容分為兩個部分,共9章。第一部分為前三章,主要介紹自然語言處理領域學習所需的理論基礎,包括預備知識、深度神經網絡以及語言模型預訓練,前三章的理論講解依次遞進,為後續章節的核心任務作鋪墊;第二部分為後六章,主要介紹了自然語言處理的六個核心任務,包括生成式文本摘要、情感分析、信息抽取、機器閱讀理解、機器翻譯和對話系統,後六章的內容從實踐出發,與當前預訓練大語言模型相結合,深度剖析自然語言處理的核心任務與部署實踐。 本書適合作為高等院校計算機科學與技術、數據科學與大數據及相關專業的教材,也可作為自然語言處理相關從業者的參考用書。

作者簡介

魏巍,華中科技大學教授,博導,2012 年博士畢業於華中科技大學計算機學院。現任華中科技大學計算機學院認知計算與智能信息處理(CCIIP)實驗室主任,入選第十批“3551 光谷人才計劃”。主要研究方向包括人工智能、自然語言處理、信息檢索與推薦、多模計算、數據挖掘等。

目錄大綱

第 1部分 理論基礎

第 1章 預備知識...............................1

1.1 概率論基本概念 ......................2

1.1.1 概率的基本要素...........2

1.1.2 隨機變量與分布函數 ....3

1.2 信息論基本概念 ......................5

1.2.1 自信息..........................5

1.2.2 信息熵..........................5

1.2.3 交叉熵..........................6

1.2.4 相對熵..........................6

1.2.5 互信息..........................6

1.3 圖論基本概念 ..........................6

1.3.1 圖的基本定義 ..............7

1.3.2 路徑與連通性 ..............8

1.3.3 圖遍歷算法 ..................9

1.3.4 最短路徑算法 ............10

1.4 機器學習基本概念 ................12

1.4.1 機器學習方法分類.....12

1.4.2 機器學習基本步驟.....13

1.4.3 欠擬合與過擬合........ 14

1.4.4 模型評估與模型

選擇 .......................... 14

1.5 自然語言處理基本概念 .........15

1.5.1 自然語言處理的發展

歷程 .......................... 16

1.5.2 自然語言處理的

挑戰 ...........................17

1.5.3 自然語言處理的傳統

任務 .......................... 18

1.6 本書內容安排 ........................20

本章小結 .........................................21

本章練習 .........................................21

第 2章 深度神經網絡 ...................22

2.1 線性神經網絡 ........................23

2.1.1 線性回歸....................23

2.1.2 邏輯回歸 ................... 24

2.1.3 多類別邏輯回歸........ 26

2.2 神經網絡訓練 ....................... 26

2.2.1 損失函數 ....................27

2.2.2 優化算法 ................... 28

2.3 前饋神經網絡 ....................... 30

2.3.1 多層感知機 ............... 30

2.3.2 前向傳播 ................... 31

2.3.3 反向傳播 ....................32

2.4 卷積神經網絡 ....................... 33

2.4.1 卷積層....................... 33

2.4.2 池化層....................... 34

2.5 循環神經網絡 ....................... 34

本章小結 ........................................ 35

本章練習 ........................................ 35

第3章 語言模型預訓練 ............. 36

3.1 簡介 ...................................... 37

3.1.1 語言模型預訓練的

任務 .......................... 37

自然語言處理(微課版)——基於深度學習與大語言模型 2

3.1.2 預訓練語言模型基礎

結構........................... 38

3.1.3 應用介紹 ................... 39

3.2 掩碼預訓練模型BERT......... 41

3.2.1 BERT網絡結構 ........ 41

3.2.2 BERT輸入表示 ........ 42

3.2.3 BERT訓練 ................ 43

3.3 GPT系列模型 ...................... 45

3.3.1 GPT-1 ..................... 45

3.3.2 GPT-2 ..................... 47

3.3.3 GPT-3 ..................... 48

3.4 預訓練語言模型優化 ............ 50

3.4.1 模型壓縮 ................... 50

3.4.2 大語言模型的微調

適配........................... 51

3.4.3 CANN計算架構

介紹........................... 54

3.5 代碼解析............................... 55

3.5.1 位置編碼 ................... 55

3.5.2 編碼器 ....................... 56

3.5.3 解碼器 ....................... 59

3.5.4 Transformer架構 .... 60

本章小結 ........................................ 61

本章練習 ........................................ 62

第 2部分 核心任務

第4章 生成式文本摘要.............. 63

4.1 引言 ...................................... 64

4.1.1 文本摘要任務............ 64

4.1.2 序列生成架構............ 65

4.2 文本輸入的長期依賴問題 .... 66

4.2.1 長期依賴問題............ 66

4.2.2 門控循環單元............ 66

4.2.3 長短期記憶網絡 ........ 67

4.2.4 梯度裁剪與正則化 .... 68

4.3 復雜的長文本編碼方案 ........ 70

4.3.1 雙向卷積神經網絡 .... 70

4.3.2 層級式卷積神經

網絡........................... 70

4.4 基於雙向LSTM的文本

摘要 ...................................... 71

4.5 基於預訓練語言模型的文本

摘要 ...................................... 77

4.5.1 基於BERT的文本摘要

模型........................... 77

4.5.2 預訓練模型與長文本

摘要........................... 78

本章小結 ........................................ 79

本章練習 ........................................ 79

第5章 情感分析............................ 80

5.1 引言 ...................................... 81

5.1.1 情感分類 ................... 82

5.1.2 方面抽取 ................... 82

5.1.3 觀點抽取 ................... 84

5.2 基於註意力機制的情感

分析 ...................................... 86

5.2.1 註意力機制簡介 ........ 86

5.2.2 通用註意力機制

框架........................... 87

5.2.3 註意力機制分類 ........ 88

5.2.4 應用實例——基於註意

力機制的方面級別情感

分類........................... 89

5.3 基於圖神經網絡的情感

分析 ...................................... 92

5.3.1 圖神經網絡簡介 ........ 92

5.3.2 圖註意力網絡及多頭

註意力機制 ............... 93

目錄 3

5.3.3 應用實例——基於圖神

經網絡的方面級別情感

分類 .......................... 94

5.4 預訓練情緒分析模型............ 96

5.4.1 基於預訓練模型的

方法 .......................... 96

5.4.2 基於MindSpore實現的

情感分析實例 ........... 97

本章小結 ...................................... 101

本章練習 ...................................... 101

第6章 信息抽取 ......................... 102

6.1 信息抽取簡介..................... 103

6.2 命名實體識別 ..................... 104

6.2.1 任務簡介................. 104

6.2.2 命名實體識別模型 ...105

6.3 實體鏈接 ............................ 106

6.3.1 引言 ........................ 106

6.3.2 實體鏈接通用架構.... 107

6.3.3 實體鏈接方向 ......... 110

6.4 關系抽取 ............................ 112

6.4.1 引言 ........................ 112

6.4.2 關系抽取方法 ......... 112

6.4.3 關系抽取方向 ......... 113

6.5 事件抽取 ............................ 114

6.5.1 引言 ........................ 114

6.5.2 事件抽取面臨的

挑戰 ........................ 115

6.5.3 限定域事件抽取...... 116

6.5.4 開放域事件抽取...... 119

6.6 小樣本信息抽取 ................. 121

6.7 預訓練信息抽取模型.......... 122

本章小結 ...................................... 124

本章練習 ...................................... 124

第7章 機器閱讀理解................ 125

7.1 機器閱讀理解簡介 ............. 126

7.1.1 機器閱讀理解任務... 126

7.1.2 機器閱讀理解模型

架構 ........................ 128

7.2 常見的機器閱讀理解模型.... 129

7.2.1 雙向註意力流模型 ...129

7.2.2 R-Net模型 ............. 132

7.2.3 閱讀驗證模型 ......... 134

7.2.4 回溯式閱讀模型...... 137

7.3 預訓練的機器閱讀理解

模型.................................... 139

7.3.1 微調BERT數據

設置 ........................ 139

7.3.2 微調BERT訓練

設置 ........................ 141

本章小結 ...................................... 142

本章練習 ...................................... 142

第8章 機器翻譯 ......................... 144

8.1 機器翻譯簡介 ..................... 145

8.1.1 機器翻譯的任務...... 145

8.1.2 機器翻譯模型

架構 ........................ 145

8.2 神經翻譯模型 ..................... 147

8.2.1 基於循環神經網絡的

機器翻譯 ................. 147

8.2.2 基於卷積神經網絡的

機器翻譯 ................. 148

8.2.3 基於自註意力機制的

機器翻譯 ................. 148

自然語言處理(微課版)——基於深度學習與大語言模型 4

8.3 機器翻譯中的搜索問題 ...... 153

8.3.1 搜索問題簡介.......... 153

8.3.2 貪婪搜索和束

搜索.........................154

8.4 機器翻譯的領域適應

問題 .................................... 155

8.4.1 領域適應問題.......... 155

8.4.2 跨語言預訓練的遷移

學習......................... 157

8.5 預訓練的機器翻譯模型 ......158

8.5.1 機器翻譯的單語預

訓練.........................159

8.5.2 機器翻譯的多語預

訓練.........................160

本章小結 ......................................160

本章練習 ......................................160

第9章 對話系統..........................161

9.1 對話系統簡介 ..................... 162

9.1.1 對話系統的技術

演變......................... 162

9.1.2 對話系統的模型

架構......................... 162

9.2 封閉域任務型對話系統 ......165

9.2.1 自然語言理解

模塊.........................166

9.2.2 對話管理模塊..........166

9.2.3 對話狀態追蹤與對話

策略.........................168

9.2.4 自然語言生成

模塊.........................170

9.3 開放域對話系統 .................170

9.3.1 開放域對話背景 ......170

9.3.2 開放域對話系統

框架.........................171

9.3.3 檢索式對話 .............173

9.3.4 生成式對話 .............174

9.4 基於預訓練大模型的對話

系統 ....................................177

9.4.1 ChatGPT的發展

歷程.........................177

9.4.2 ChatGPT的核心技術

原理.........................178

本章小結 ......................................180

本章練習 ......................................180

附錄1 各章重點概念中英

對照 ...................................181

附錄2 推薦閱讀技術資料及各章

練習參考答案.................186