自然語言處理Python實踐

範海峰、張傳雷、王輝

  • 自然語言處理Python實踐-preview-1
  • 自然語言處理Python實踐-preview-2
  • 自然語言處理Python實踐-preview-3
  • 自然語言處理Python實踐-preview-4
  • 自然語言處理Python實踐-preview-5
  • 自然語言處理Python實踐-preview-6
  • 自然語言處理Python實踐-preview-7
自然語言處理Python實踐-preview-1

商品描述

"本書共有14章。第1~3章分別為緒論、Python語言概述及常用數據集;第4章介紹中英文語料庫;第5章介紹在數據分析與可視化過程中常用的3個開源庫;第6、7章分別介紹中英文分詞與詞性標註;第8章介紹特征工程;第9、10章分別介紹文本分類與文本聚類;第11~13章分別介紹機器翻譯、文本信息提取和情感分析;第14章介紹多種自然語言處理工具箱的使用。 本書旨在幫助讀者自學,並力求在知識體系上做到全面完整,所采用的例子既簡潔又精練。本書提供了配套的教學大綱、教學課件、源代碼和習題答案,並在AI Studio網站提供了實戰操作支持。 本書適合作為高等院校人工智能及相關專業的本科生和研究生“自然語言處理”課程的教材,同時也可供自然語言處理愛好者作為參考用書。 "

目錄大綱

目錄

第1章緒論1

1.1發展歷程1

1.2處理流程2

1.3文本數據的NLP處理流程3

1.4代碼實現4

1.4.1數據清洗與標準化4

1.4.2數據分割以及特征提取與表示5

1.4.3詞性標註6

1.4.4關鍵詞提取7

1.4.5命名實體識別8

1.5小結9

練習題9

第2章Python語言概述11

2.1初識Python語言11

2.2數據類型12

2.2.1數值型13

2.2.2字符串13

2.2.3列表15

2.2.4元組19

2.2.5布爾型20

2.2.6集合20

2.2.7字典22

2.2.8變量23

2.2.9基本的輸入輸出函數24

2.3運算符25

2.3.1算術運算符25

2.3.2比較運算符26

2.3.3邏輯運算符27

2.3.4位運算符28

2.3.5運算符的優先級28

2.3.6復合賦值運算符29

2.4控制結構29

2.4.1選擇結構29

2.4.2循環結構30

2.4.3break語句和continue語句31

2.4.4應用舉例32

2.5函數33

2.5.1函數的參數類型34

2.5.2參數解包36

2.5.3lambda函數36

2.5.4變量的作用域36

2.6類與面向對象37

2.6.1實例屬性與類屬性38

2.6.2實例方法與類方法38

2.6.3類的繼承39

2.6.4類的特殊方法40

2.6.5模塊與包40

2.6.6小結41

第3章常用數據集43

3.1小數據集43

3.1.1糖尿病數據集44

3.1.2手寫數字數據集44

3.1.3鳶尾花數據集45

3.1.4體能訓練數據集46

3.2大數據集47

3.2.1Olivetti人臉數據集48

3.2.220個新聞組數據集49

3.2.3LFW數據集與RCV1數據集50

3.2.4加州住房價格數據集51

3.2.5MNIST手寫數字數據集53

3.3生成數據集53

3.3.1make_regression與make_blobs54

3.3.2make_classification55

3.3.3make_circles與make_moons數據集56

3.3.4瑞士卷57

3.4小結58

練習題58

第4章語料庫60

4.1語料庫概述60

4.2中文語料庫61

4.3英文語料庫61

4.3.1古騰堡語料庫61

4.3.2網絡文本語料庫和即時消息聊天語料庫63

4.3.3布朗語料庫63

4.3.4路透社語料庫65

4.3.5就職演講語料庫65

4.4文本語料庫66

4.4.1文本語料庫概述66

4.4.2文本語料庫的結構67

4.5小結69

練習題69

第5章數據分析與可視化70

5.1NumPy70

5.1.1創建數組71

5.1.2算術運算與線性代數72

5.1.3通用函數74

5.1.4索引、切片和疊代75

5.1.5形狀變換77

5.1.6堆疊與分割78

5.1.7廣播78

5.2Pandas79

5.2.1Series79

5.2.2DataFrame81

5.3Matplotlib84

5.3.1繪制線圖85

5.3.2中文字體87

5.3.3輸出文本88

5.3.4繪制子圖91

5.3.5餅圖、散點圖和直方圖91

5.4小結93

練習題93

第6章中英文分詞96

6.1英文分詞96

6.2中文分詞97

6.2.1基於詞典的分詞方法97

6.2.2基於統計模型的分詞方法100

6.3中文分詞工具102

6.4小結104

練習題104

第7章詞性標註106

7.1標註語料庫106

7.2字典108

7.3詞性標註器110

7.3.1默認標註器110

7.3.2正則表達式標註器111

7.3.3查找標註器112

7.3.4Unigram標註器113

7.3.5Ngram標註器114

7.3.6組合標註器115

7.4小結116

練習題116

第8章特征工程 119

8.1特征縮放119

8.1.1特征歸一化120

8.1.2特征標準化120

8.1.3特征魯棒化121

8.1.4特征規範化122

8.2特征編碼123

8.2.1獨熱編碼123

8.2.2其他非數值數據編碼124

8.3特征提取125

8.4小結127

練習題128

第9章文本分類129

9.1文本分類系統及其應用129

9.2文本預處理流程130

9.3應用舉例132

9.3.1英文文本分類132

9.3.2中文文本分類134

9.4樸素貝葉斯137

9.5性能評價指標138

9.5.1混淆矩陣139

9.5.2準確率140

9.5.3精度、召回率和F1值140

9.5.4ROC曲線與AUC面積141

9.5.5分類報告143

9.6小結144

練習題145

第10章文本聚類147

10.1距離計算147

10.2聚類算法149

10.2.1K均值及其變體149

10.2.2其他聚類算法151

10.3應用舉例153

10.4性能評價指標154

10.5小結156

練習題156

第11章機器翻譯158

11.1機器翻譯難在哪兒158

11.2文本對齊159

11.3動態規劃160

11.4最小編輯距離161

11.5應用場景與翻譯工具164

11.6小結165

練習題166

第12章文本信息提取167

12.1概述167

12.2命名實體識別及關系提取168

12.2.1名詞短語塊168

12.2.2標簽模式170

12.3命名實體識別舉例172

12.4分塊器的構建與評估173

12.4.1最樸素分塊器與正則表達式分塊器173

12.4.2ngrams分塊器174

12.5實體關系提取176

12.6關鍵詞提取177

12.7小結178

練習題178

第13章情感分析180

13.1短語級的情感分析180

13.2語句級的情感分析182

13.3文檔級的情感分析184

13.4主題或領域級的情感分析185

13.5應用舉例186

13.6小結188

練習題188

第14章自然語言處理工具箱190

14.1NLTK190

14.2SpaCy192

14.3TextBlob194

14.4HanLP195

14.5Gensim196

14.6Jieba198

14.7小結200

練習題200

附錄AJieba分詞中常用的詞性標簽、對應的英文單詞(或概念)以及詳細的說明202附錄B一些常用的NLTK詞性標簽及其含義204參考文獻206