自然語言處理Python實踐
範海峰、張傳雷、王輝
- 出版商: 清華大學
- 出版日期: 2025-06-01
- 售價: $294
- 語言: 簡體中文
- ISBN: 7302692203
- ISBN-13: 9787302692201
-
相關分類:
Natural Language Processing、Python
下單後立即進貨 (約4週~6週)
商品描述
目錄大綱
目錄
第1章緒論1
1.1發展歷程1
1.2處理流程2
1.3文本數據的NLP處理流程3
1.4代碼實現4
1.4.1數據清洗與標準化4
1.4.2數據分割以及特征提取與表示5
1.4.3詞性標註6
1.4.4關鍵詞提取7
1.4.5命名實體識別8
1.5小結9
練習題9
第2章Python語言概述11
2.1初識Python語言11
2.2數據類型12
2.2.1數值型13
2.2.2字符串13
2.2.3列表15
2.2.4元組19
2.2.5布爾型20
2.2.6集合20
2.2.7字典22
2.2.8變量23
2.2.9基本的輸入輸出函數24
2.3運算符25
2.3.1算術運算符25
2.3.2比較運算符26
2.3.3邏輯運算符27
2.3.4位運算符28
2.3.5運算符的優先級28
2.3.6復合賦值運算符29
2.4控制結構29
2.4.1選擇結構29
2.4.2循環結構30
2.4.3break語句和continue語句31
2.4.4應用舉例32
2.5函數33
2.5.1函數的參數類型34
2.5.2參數解包36
2.5.3lambda函數36
2.5.4變量的作用域36
2.6類與面向對象37
2.6.1實例屬性與類屬性38
2.6.2實例方法與類方法38
2.6.3類的繼承39
2.6.4類的特殊方法40
2.6.5模塊與包40
2.6.6小結41
第3章常用數據集43
3.1小數據集43
3.1.1糖尿病數據集44
3.1.2手寫數字數據集44
3.1.3鳶尾花數據集45
3.1.4體能訓練數據集46
3.2大數據集47
3.2.1Olivetti人臉數據集48
3.2.220個新聞組數據集49
3.2.3LFW數據集與RCV1數據集50
3.2.4加州住房價格數據集51
3.2.5MNIST手寫數字數據集53
3.3生成數據集53
3.3.1make_regression與make_blobs54
3.3.2make_classification55
3.3.3make_circles與make_moons數據集56
3.3.4瑞士卷57
3.4小結58
練習題58
第4章語料庫60
4.1語料庫概述60
4.2中文語料庫61
4.3英文語料庫61
4.3.1古騰堡語料庫61
4.3.2網絡文本語料庫和即時消息聊天語料庫63
4.3.3布朗語料庫63
4.3.4路透社語料庫65
4.3.5就職演講語料庫65
4.4文本語料庫66
4.4.1文本語料庫概述66
4.4.2文本語料庫的結構67
4.5小結69
練習題69
第5章數據分析與可視化70
5.1NumPy70
5.1.1創建數組71
5.1.2算術運算與線性代數72
5.1.3通用函數74
5.1.4索引、切片和疊代75
5.1.5形狀變換77
5.1.6堆疊與分割78
5.1.7廣播78
5.2Pandas79
5.2.1Series79
5.2.2DataFrame81
5.3Matplotlib84
5.3.1繪制線圖85
5.3.2中文字體87
5.3.3輸出文本88
5.3.4繪制子圖91
5.3.5餅圖、散點圖和直方圖91
5.4小結93
練習題93
第6章中英文分詞96
6.1英文分詞96
6.2中文分詞97
6.2.1基於詞典的分詞方法97
6.2.2基於統計模型的分詞方法100
6.3中文分詞工具102
6.4小結104
練習題104
第7章詞性標註106
7.1標註語料庫106
7.2字典108
7.3詞性標註器110
7.3.1默認標註器110
7.3.2正則表達式標註器111
7.3.3查找標註器112
7.3.4Unigram標註器113
7.3.5Ngram標註器114
7.3.6組合標註器115
7.4小結116
練習題116
第8章特征工程 119
8.1特征縮放119
8.1.1特征歸一化120
8.1.2特征標準化120
8.1.3特征魯棒化121
8.1.4特征規範化122
8.2特征編碼123
8.2.1獨熱編碼123
8.2.2其他非數值數據編碼124
8.3特征提取125
8.4小結127
練習題128
第9章文本分類129
9.1文本分類系統及其應用129
9.2文本預處理流程130
9.3應用舉例132
9.3.1英文文本分類132
9.3.2中文文本分類134
9.4樸素貝葉斯137
9.5性能評價指標138
9.5.1混淆矩陣139
9.5.2準確率140
9.5.3精度、召回率和F1值140
9.5.4ROC曲線與AUC面積141
9.5.5分類報告143
9.6小結144
練習題145
第10章文本聚類147
10.1距離計算147
10.2聚類算法149
10.2.1K均值及其變體149
10.2.2其他聚類算法151
10.3應用舉例153
10.4性能評價指標154
10.5小結156
練習題156
第11章機器翻譯158
11.1機器翻譯難在哪兒158
11.2文本對齊159
11.3動態規劃160
11.4最小編輯距離161
11.5應用場景與翻譯工具164
11.6小結165
練習題166
第12章文本信息提取167
12.1概述167
12.2命名實體識別及關系提取168
12.2.1名詞短語塊168
12.2.2標簽模式170
12.3命名實體識別舉例172
12.4分塊器的構建與評估173
12.4.1最樸素分塊器與正則表達式分塊器173
12.4.2ngrams分塊器174
12.5實體關系提取176
12.6關鍵詞提取177
12.7小結178
練習題178
第13章情感分析180
13.1短語級的情感分析180
13.2語句級的情感分析182
13.3文檔級的情感分析184
13.4主題或領域級的情感分析185
13.5應用舉例186
13.6小結188
練習題188
第14章自然語言處理工具箱190
14.1NLTK190
14.2SpaCy192
14.3TextBlob194
14.4HanLP195
14.5Gensim196
14.6Jieba198
14.7小結200
練習題200
附錄AJieba分詞中常用的詞性標簽、對應的英文單詞(或概念)以及詳細的說明202附錄B一些常用的NLTK詞性標簽及其含義204參考文獻206