Python中文自然語言處理基礎與實戰(第2版)(微課版)

肖剛,張良均

  • 出版商: 人民郵電
  • 出版日期: 2025-08-01
  • 售價: $419
  • 語言: 簡體中文
  • 頁數: 304
  • ISBN: 7115673225
  • ISBN-13: 9787115673220
  • 相關分類: Natural Language Processing
  • 下單後立即進貨 (約4週~6週)

  • Python中文自然語言處理基礎與實戰(第2版)(微課版)-preview-1
  • Python中文自然語言處理基礎與實戰(第2版)(微課版)-preview-2
Python中文自然語言處理基礎與實戰(第2版)(微課版)-preview-1

商品描述

本書以Python中文自然語言處理的常用技術與真實案例相結合的方式,深入淺出地介紹Python中文自然語言處理的重要內容。全書共13章,內容包括緒論、語料庫、正則表達式、中文分詞、詞性標註和命名實體識別、關鍵詞提取、文本向量化、文本分類和文本聚類、文本情感分析、NLP中的深度學習技術、智能問答系統、大語言模型以及基於TipDM大數據挖掘建模平臺實現垃圾短信分類。全書大部分章節都包含實訓和課後習題,旨在通過練習和操作實踐,幫助讀者鞏固所學的內容。

本書可用於“1+X”大數據應用開發(Python)職業技能等級證書(高級)的教學和培訓,也可作為高校數據科學或人工智能相關專業的教材,還可作為自然語言處理愛好者的自學用書。

作者簡介

肖剛,博士,教授。韓山師範學院數學與統計學院院長、廣東省中小型企業大數據與智能化工程研究中心主任,華南師範大學、廣州大學兼職碩士生導師。中國醫學裝備協會磁共振成像裝備與技術專業委員會委員、廣東省生物醫學工程學會醫學信息工程分會委員、廣東省工業與應用數學學會、廣東省現場統計學會和廣東省計算數學學會理事,“泰迪杯”全國數據挖掘挑戰賽專家組成員。主要從事應用數學、數據挖掘和醫學影像學的研究工作以及創新創業競賽、數學建模競賽、數據挖掘挑戰賽的教學與指導工作。主持廣東省自然科學基金項目2項,主持廣東省教育廳項目4項,以第一作者發表論文30余篇,其中SCI檢索7篇。2016年廣東省科學技術進步獎三等獎、2018年汕頭科學技術獎一等獎、2019年廣東省科學技術進步獎優秀獎以及2019年廣東省教學成果(基礎教育)一等獎主要成員。

目錄大綱

第 1章 緒論 1

1.1 NLP概述 2

1.1.1 NLP的發展歷程 3

1.1.2 NLP的研究內容 4

1.1.3 NLP的應用 6

1.1.4 NLP與人工智能技術的關系 7

1.1.5 學習NLP的困難 7

1.1.6 中文NLP的挑戰 8

1.2 中文NLP基本流程 9

1.2.1 語料獲取 9

1.2.2 語料預處理 10

1.2.3 文本向量化 10

1.2.4 模型構建 10

1.2.5 模型訓練 10

1.2.6 模型評價 11

1.3 NLP的Python開發環境 11

1.3.1 NLP與Python 11

1.3.2 Anaconda簡介與安裝 12

1.3.3 Anaconda中應用的簡介 16

1.4 任務:構建中文文本高頻詞雲圖 22

小結 24

課後習題 25

第 2章 語料庫 26

2.1 語料庫概述 27

2.1.1 語料庫的特點 27

2.1.2 語料庫的用途 28

2.2 語料庫種類與構建原則 29

2.2.1 語料庫種類 29

2.2.2 語料庫構建原則 29

2.3 語料庫的獲取 30

2.3.1 中文開源語料庫 30

2.3.2 網絡在線語料庫 31

2.4 任務:網絡在線語料分析 32

2.5 任務:構建電影評論語料庫 34

小結 36

實訓 36

實訓1 構建語料庫 36

實訓2 《七劍下天山》語料庫分析 36

課後習題 37

第3章 正則表達式 38

3.1 正則表達式簡介 39

3.1.1 正則表達式的應用範圍 39

3.1.2 正則表達式函數 40

3.1.3 正則表達式元字符 45

3.2 任務:正則表達式應用 49

3.2.1 常用正則表達式搭配 49

3.2.2 常用正則表達式示例 50

小結 54

實訓 54

實訓1 過濾《三國誌》中的非中文字符 54

實訓2 提取地名與郵編 54

實訓3 提取網頁標簽中的文本 54

課後習題 55

第4章 中文分詞 56

4.1 中文分詞簡介 57

4.1.1 中文分詞的難點 57

4.1.2 中文分詞方法 58

4.2 基於規則的分詞 59

4.2.1 正向最大匹配法 59

4.2.2 逆向最大匹配法 61

4.2.3 雙向最大匹配法 63

4.3 基於統計的分詞 64

4.3.1 HMM 64

4.3.2 中文分詞與HMM 68

4.4 基於深度學習的分詞 70

4.4.1 基於深度學習的分詞的主要步驟 70

4.4.2 基於深度學習的中文分詞示例 71

4.5 中文分詞工具jieba 75

4.5.1 jieba算法簡介 76

4.5.2 jieba分詞模式 76

4.6 任務:中文分詞的應用 77

4.6.1 HMM中文分詞 77

4.6.2 提取新聞文本的高頻詞 82

小結 84

實訓 85

實訓1 使用HMM進行中文分詞 85

實訓2 提取新聞文本中的高頻詞 85

課後習題 85

第5章 詞性標註和命名實體識別 87

5.1 詞性標註簡介 88

5.2 詞性標註模型 89

5.2.1 基於HMM的詞性標註 89

5.2.2 基於深度學習的詞性標註 91

5.3 基於jieba的詞性標註 94

5.4 命名實體識別 95

5.4.1 命名實體識別簡介 95

5.4.2 基於CRF模型的中文命名實體識別 95

5.4.3 基於深度學習的中文命名實體識別 99

5.5 任務:使用sklearn-crfsuite庫進行中文命名實體識別 102

5.5.1 sklearn-crfsuite庫簡介 102

5.5.2 使用sklearn-crfsuite庫進行中文命名實體識別的流程 102

小結 110

實訓 中文命名實體識別 110

課後習題 110

第6章 關鍵詞提取 112

6.1 關鍵詞提取簡介 113

6.2 關鍵詞提取方法 113

6.2.1 基於統計的方法 113

6.2.2 基於語義的方法 118

6.3 任務:自動提取文本關鍵詞 123

6.3.1 文本預處理 123

6.3.2 TF-IDF算法 125

6.3.3 TextRank算法 126

6.3.4 LSI算法 128

小結 130

實訓 130

實訓1 文本預處理 130

實訓2 使用TF-IDF算法提取關鍵詞 130

實訓3 使用TextRank算法提取關鍵詞 131

實訓4 使用LSA算法提取關鍵詞 131

課後習題 131

第7章 文本向量化 133

7.1 文本向量化簡介 134

7.2 文本向量化的離散化表示 135

7.2.1 獨熱編碼 135

7.2.2 BoW模型 136

7.2.3 TF-IDF方法 138

7.3 文本向量化的分布式表示 139

7.3.1 常見的文本向量化的分布式表示的方法 139

7.3.2 Word2Vec模型 140

7.3.3 Doc2Vec模型 145

7.4 任務:文本相似度計算 150

7.4.1 Word2Vec詞向量的訓練 150

7.4.2 Doc2Vec段落向量的訓練 152

7.4.3 計算文本相似度 153

小結 158

實訓 159

實訓1 實現基於Word2Vec模型的新聞語料詞向量訓練 159

實訓2 實現基於Doc2Vec模型的新聞語料段落向量訓練 159

實訓3 使用Word2Vec模型和Doc2Vec模型計算新聞文本的相似度 159

課後習題 160

第8章 文本分類和文本聚類 161

8.1 文本挖掘簡介 162

8.2 文本分類 163

8.2.1 文本分類算法 163

8.2.2 文本分類的應用 164

8.2.3 中文文本分類的步驟 164

8.3 文本聚類 166

8.3.1 文本聚類算法 166

8.3.2 文本聚類的應用 167

8.3.3 中文文本聚類的步驟 167

8.4 任務:垃圾短信分類 169

8.4.1 數據讀取 170

8.4.2 數據預處理 171

8.4.3 詞頻統計 172

8.4.4 分類 174

8.4.5 模型評價 175

8.5 任務:新聞文本聚類 175

8.5.1 數據讀取 176

8.5.2 文本預處理 177

8.5.3 特征提取 177

8.5.4 聚類 178

8.5.5 模型評價 179

小結 180

實訓 180

實訓1 基於樸素貝葉斯的新聞分類 180

實訓2 書名文本聚類分析 180

課後習題 181

第9章 文本情感分析 182

9.1 文本情感分析簡介 183

9.1.1 文本情感分析的主要內容 183

9.1.2 文本情感分析的常見應用 192

9.2 文本情感分析的常用方法 193

9.2.1 基於情感詞典的分析方法 193

9.2.2 機器學習方法 195

9.2.3 深度學習方法 199

9.3 任務:基於情感詞典的文本情感分析 202

9.4 任務:基於機器學習的文本情感分析 205

9.4.1 基於樸素貝葉斯分類的文本情感分析 205

9.4.2 基於snownlp的文本情感分析 208

小結 209

實訓 209

實訓1 基於情感詞典的豆瓣評論文本情感分析 209

實訓2 基於樸素貝葉斯的豆瓣評論文本情感分析 209

實訓3 基於snownlp的豆瓣評論文本情感分析 209

課後習題 210

第 10章 NLP中的深度學習技術 211

10.1 RNN概述 212

10.2 RNN結構 213

10.2.1 多對一結構 213

10.2.2 等長的多對多結構 214

10.2.3 非等長結構 216

10.3 任務:基於LSTM的文本分類與情感分析 218

10.3.1 文本分類 218

10.3.2 情感分析 228

10.4 任務:基於Seq2Seq的機器翻譯 233

10.4.1 語料預處理 233

10.4.2 構建模型 237

10.4.3 定義優化器及損失函數 240

10.4.4 訓練模型 241

10.4.5 翻譯 243

小結 245

實訓 245

實訓1 實現基於LSTM的文本分類 245

實訓2 實現基於LSTM的情感分析 246

實訓3 實現基於Seq2Seq的機器翻譯 246

課後習題 247

第 11章 智能問答系統 248

11.1 智能問答系統簡介 249

11.2 智能問答系統的主要組成部分 250

11.2.1 問題理解 250

11.2.2 知識檢索 250

11.2.3 答案生成 251

11.3 任務:基於Seq2Seq的智能問答系統 252

11.3.1 讀取語料 252

11.3.2 語料預處理 253

11.3.3 模型構建 257

11.3.4 模型訓練 263

11.3.5 模型評價 271

小結 271

實訓 基於Seq2Seq模型的聊天機器人 271

課後習題 272

第 12章 大語言模型 273

12.1 大語言模型簡介 274

12.2 中文大語言模型 275

12.2.1 國內中文大語言模型 275

12.2.2 調用大語言模型API 276

12.3 訊飛星火認知大模型 277

12.3.1 訊飛星火認知大模型簡介 277

12.3.2 調用訊飛星火認知大模型API 277

12.4 訊飛星火認知大模型API程序開發應用 278

12.4.1 常見應用 279

12.4.2 API開發應用示例 279

小結 284

實訓 API開發相關應用 284

課後習題 285

第 13章 基於TipDM大數據挖掘建模平臺實現垃圾短信分類 286

13.1 在TipDM大數據挖掘建模平臺上配置垃圾短信分類示例的流程 287

13.2 數據讀取 289

13.3 數據預處理 290

13.4 模型構建與訓練 303

小結 304

實訓 基於TipDM大數據挖掘建模平臺實現基於樸素貝葉斯的新聞分類 304

課後習題 304