文本機器學習
陳小青 黎琳 潘微.
- 出版商: 機械工業
- 出版日期: 2026-01-01
- 售價: $954
- 語言: 簡體中文
- ISBN: 7111792777
- ISBN-13: 9787111792772
-
相關分類:
Text-mining
- 此書翻譯自: Machine Learning for Text
下單後立即進貨 (約4週~6週)
相關主題
商品描述
本書構建了條理清晰的文本分析框架,該框架系統整合了信息檢索、機器學習和自然語言處理的交叉主題,尤其側重深度學習方法的應用,助力讀者形成從基礎到前沿的完整認知體系。全書可分為三大部分,具體如下:基本算法(第1章至第7章):聚焦於文本分析領域的經典算法,深入探討預處理、相似度計算、主題建模、矩陣分解、聚類、分類、回歸以及集成分析等關鍵技術。這些算法作為文本分析的基石,為後續 覆雜的應用奠定了堅實基礎。領域敏感學習與信息檢索(第8章和第9章):圍繞異構環境下的學習模型展開,詳細探討如何將文本與多媒體、網絡鏈接等多元數據進行有機結合。同時,從排序和機器學習方法的獨特視角,深入剖析信息檢索與網絡搜索所面臨的挑戰。自然語言處理( 0章至 6章):討論各類以序列為中心的應用和自然語言處理的前沿技術,包括特征工程、自然語言模型、深度學習、Transformer架構、預訓練語言模型、文本摘要、信息提取、知識圖譜構建、問答系統設計、意見挖掘、文本分割和事件檢測等。
作者簡介
查魯·C. 阿加沃爾(Charu C. Aggarwal)<br />紐約約克敦高地IBM T. J. 沃森研究中心的傑出研究員(DRSM)。他1993年畢業於印度坎普爾理工學院,獲計算機科學學士學位,1996年獲麻省理工學院運籌學博士學位。他在經過同行評審的會議和期刊上發表了400多篇論文,申請或獲得的專利超過80項。他撰寫或編輯了20部著作,包括線性代數、機器學習(文本領域)、神經網絡、 系統和異常值分析等領域的教科書。由於其專利的商業價值,他曾三次被IBM授予“傑出發明家”稱號。他獲得過多項內部和外部獎項,包括EDBT時間考驗獎(2014年)、ACM SIGKDD 創新獎(2019年)和IEEE ICDM研究貢獻獎(2015年)。他還是W. 華萊士·麥克道威爾獎的獲得者,該獎項是IEEE計算機學會在計算機科學領域頒發的 技術榮譽。<br />他曾擔任ACM SIGKDD Explorations主編,目前擔任ACM Transactions on Knowledge Discovery from Data和ACM Books主編。他因“在知識發現和數據挖掘算法方面的貢獻”當選為工業與應用數學學會(SIAM)、美國計算機協會(ACM)和電氣與電子工程師協會(IEEE)會士。
目錄大綱
譯者序
前言
作者簡介第1章 文本分析概述1
1.1 導論1
1.2 文本學習有何特別之處3
1.3 文本分析模型4
1.3.1 文本預處理和相似度
計算4
1.3.2 降維與矩陣分解5
1.3.3 文本聚類6
1.3.4 文本分類與回歸建模8
1.3.5 結合文本與異構數據的
聯合分析10
1.3.6 信息檢索與網頁搜索10
1.3.7 序列語言建模與嵌入10
1.3.8 Transformer與預訓練語言
模型11
1.3.9 文本摘要11
1.3.10 信息提取11
1.3.11 問答系統12
1.3.12 意見挖掘與情感分析12
1.3.13 文本分割與事件檢測12
1.4 本章小結12
1.5 參考資料13
1.6 習題13第2章 文本預處理與相似度
計算14
2.1 導論14
2.2 原始文本提取與詞條化15
2.3 從詞條中提取詞項18
2.3.1 停用詞移除18
2.3.2 連字符18
2.3.3 大小寫轉換19
2.3.4 基於用法的合並19
2.3.5 詞幹提取19
2.4 向量空間表示與歸一化20
2.5 文本中的相似度計算21
2.6 本章小結24
2.7 參考資料24
2.8 習題25第3章 矩陣分解與主題建模26
3.1 導論26
3.2 SVD29
3.2.1 SVD的例子31
3.2.2 實現SVD的冪疊代法32
3.2.3 SVD/LSA的應用33
3.2.4 SVD/LSA的優缺點33
3.3 非負矩陣分解34
3.3.1 非負矩陣分解的可
解釋性35
3.3.2 非負矩陣分解的例子36
3.3.3 融入新文檔38
3.3.4 非負矩陣分解的
優缺點38
3.4 PLSA38
3.4.1 與非負矩陣分解的
聯系41
3.4.2 與SVD的比較42
3.4.3 PLSA的例子42
3.4.4 PLSA的優缺點42
3.5 LDA概覽43
3.5.1 簡化的LDA模型43
3.5.2 平滑的LDA模型46
3.6 非線性變換和特征工程47
3.6.1 選擇一個相似度函數49
3.6.2 Nystrm估計55
3.6.3 相似度矩陣的部分
可用性56
3.7 本章小結57
3.8 參考資料58
3.9 習題59第4章 文 本 聚 類61
4.1 導論61
4.2 特征選擇與特征工程62
4.2.1 特征選擇63
4.2.2 特征工程64
4.3 主題建模和矩陣分解65
4.3.1 混合隸屬度模型與
重疊簇65
4.3.2 非重疊簇與協同聚類:
矩陣分解的角度66
4.4 面向聚類的生成混合模型69
4.4.1 伯努利模型70
4.4.2 多項式模型71
4.4.3 與混合隸屬度主題模型的
比較72
4.4.4 與樸素貝葉斯分類模型的
聯系73
4.5 k均值算法73
4.5.1 收斂與初始化75
4.5.2 計算覆雜度75
4.5.3 與概率模型的聯系76
4.6 層次聚類算法76
4.6.1 高效實現與計算
覆雜度78
4.6.2 與k均值的自然聯姻79
4.7 聚類集成80
4.7.1 選擇集成分量80
4.7.2 混合來自不同分量的
結果81
4.8 將文本當作序列來進行聚類81
4.8.1 面向聚類的核方法82
4.8.2 數據相關的核方法:
譜聚類84
4.9 聚類到有監督學習的轉換86
4.10 聚類評估87
4.10.1 內部有效性度量的
缺陷87
4.10.2 外部有效性度量87
4.11 本章小結90
4.12 參考資料91
4.13 習題92第5章 文本分類:基本模型93
5.1 導論93
5.1.1 標記的類型與回歸
建模94
5.1.2 訓練與測試94
5.1.3 歸納學習器、直推學習器
和演繹學習器95
5.1.4 基本模型96
5.1.5 分類器中與文本相關的
挑戰96
5.2 特征選擇與特征工程97
5.2.1 基尼系數97
5.2.2 條件熵98
5.2.3 逐點互信息98
5.2.4 緊密相關的度量方式98
5.2.5 χ2-統計量99
5.2.6 嵌入式特征選擇模型100
5.2.7 特征工程技巧101
5.3 樸素貝葉斯模型101
5.3.1 伯努利模型102
5.3.2 多項式模型104
5.3.3 實際觀察105
5.3.4 利用樸素貝葉斯對輸出
進行排序105
5.3.5 樸素貝葉斯的例子105
5.3.6 半監督樸素貝葉斯108
5.4 最近鄰分類器109
5.4.1 1-最近鄰分類器的
屬性110
5.4.2 Rocchio與最近質心
分類112
5.4.3 加權最近鄰113
5.4.4 自適應最近鄰:一系列
有效的方法115
5.5 決策樹與隨機森林117
5.5.1 構造決策樹的基本
步驟117
5.5.2 分裂一個節點118
5.5.3 多變量分裂119
5.5.4 文本分類中的決策樹
問題119
5.5.5 隨機森林120
5.5.6 把隨機森林看作自適應
最近鄰方法121
5.6 基於規則的分類器121
5.6.1 順序覆蓋算法122
5.6.2 從決策樹中生成規則124
5.6.3 關聯分類器124
5.7 本章小結125
5.8 參考資料126
5.9 習題127第6章 用於分類和回歸的線性
模型130
6.1 導論130
6.1.1 線性模型的幾何解釋131
6.1.2 我們需要偏置變量嗎132
6.1.3 使用正則化的線性模型的
一般定義133
6.1.4 將二值預測推廣到
多類134
6.1.5 面向文本的線性模型的
特點134
6.2 最小二乘回歸與分類135
6.2.1 使用L2正則化的最小
二乘回歸135
6.2.2 LASSO:使用L1正則化
的最小二乘回歸138
6.2.3 Fisher線性判別與最小
二乘分類器139
6.3 SVM145
6.3.1 正則優化解釋145
6.3.2 最大間隔解釋146
6.3.3 Pegasos:在原始空間中
求解SVM148
6.3.4 對偶SVM的優化
形式149
6.3.5 對偶SVM的學習
算法151
6.3.6 對偶SVM的自適應
最近鄰解釋152
6.4 對數概率回歸153
6.4.1 正則優化解釋153
6.4.2 對數概率回歸的訓練
算法155
6.4.3 對數概率回歸的概率
解釋156
6.4.4 多元對數概率回歸與
其他推廣157
6.4.5 關於對數概率回歸性能
的評述158
6.5 線性模型的非線性推廣158
6.5.1 基於顯式變換的
核SVM160
6.5.2 為什麼傳統的核函數能夠
提升線性可分性161
6.5.3 不同核函數的優缺點163
6.5.4 核技巧163
6.5.5 核技巧的系統性應用164
6.6 本章小結167
6.7 參考資料167
6.8 習題169第7章 分類器的性能與評估171
7.1 導論171
7.2 偏置-方差權衡172
7.2.1 一個形式化的觀點173
7.2.2 偏置和方差的跡象176
7.3 偏置-方差權衡在性能方面的
影響176
7.3.1 訓練數據規模的影響176
7.3.2 數據維度的影響177
7.3.3 文本中模型選擇的
影響178
7.4 利用集成方法系統性地提升
性能179
7.4.1 bagging與子采樣179
7.4.2 boosting180
7.5 分類器評估182
7.5.1 分割為訓練部分和測試
部分183
7.5.2 絕對準確率度量183
7.5.3 面向分類和信息檢索的
排序度量186
7.6 本章小結190
7.7 參考資料190
7.7.1 boosting與對數概率
回歸的聯系191
7.7.2 分類器評估191
7.7.3 軟件資源191
7.7.4 用於評估的數據集191
7.8 習題192第8章 結合異構數據的聯合
文本挖掘193
8.1 導論193
8.2 共享矩陣分解的技巧195
8.2.1 分解圖195
8.2.2 應用:結合文本和網頁
鏈接進行共享分解196
8.2.3 應用:結合文本與無向
社交網絡198
8.2.4 應用:結合文本的圖像
遷移學習199
8.2.5 應用:結合評分和文本
的推薦系統202
8.2.6 應用:跨語言文本
挖掘203
8.3 分解機204
8.4 聯合概率建模技術207
8.4.1 面向聚類的聯合概率
模型207
8.4.2 樸素貝葉斯分類器208
8.5 轉換為圖挖掘技術208
8.6 本章小結210
8.7 參考資料211
8.8 習題212第9章 信息檢索與搜索引擎213
9.1 導論213
9.2 索引和查詢處理214
9.2.1 詞典數據結構215
9.2.2 倒排索引216
9.2.3 線性時間的索引構建217
9.2.4 查詢處理219
9.2.5 效率優化227
9.3 信息檢索模型的評分230
9.3.1 基於tf-idf的向量空間
模型230
9.3.2 二值獨立模型231
9.3.3 使用詞項頻率的BM25
模型234
9.3.4 信息檢索中的統計語言
模型235
9.4 網絡爬蟲與資源發現236
9.4.1 一個基本的爬蟲算法237
9.4.2 帶偏好的爬蟲238
9.4.3 多線程239
9.4.4 避開蜘蛛陷阱240
9.4.5 用於近似重覆檢測的
Shingling方法240
9.5 搜索引擎中的查詢處理240
9.5.1 分布式索引構建241
9.5.2 動態索引更新242
9.5.3 查詢處理242
9.5.4 信譽度的重要性243
9.6 基於鏈接的排序算法244
9.6.1 PageRank244
9.6.2 HITS248
9.7 本章小結249
9.8 參考資料250
9.9 習題251第10章 語言建模與深度學習252
10.1 導論252
10.2 統計語言模型254
10.2.1 skip-gram模型257
10.2.2 與嵌入的關系258
10.2.3 使用困惑度評估語言
模型258
10.3 面向以序列為中心的學習的
核方法259
10.4 單詞-上下文矩陣分解模型260
10.4.1 使用計數的矩陣
分解260
10.4.2 GloVe嵌入262
10.4.3 PPMI矩陣分解262
10.4.4 位移PPMI矩陣
分解263
10.4.5 融入句法和其他
特征263
10.5 單詞距離的圖形化表示263
10.6 神經網絡與詞嵌入265
10.6.1 神經網絡簡介265
10.6.2 基於word2vec的神經
嵌入274
10.6.3 通過對數概率矩陣分解
模擬word2vec
(SGNS)280
10.6.4 除了單詞以外:基於
doc2vec的段落
嵌入282
10.7 循環神經網絡283
10.7.1 循環神經網絡的語言
建模示例285
10.7.2 通過時間的反向
傳播287
10.7.3 雙向循環網絡289
10.7.4 多層循環網絡290
10.7.5 LSTM291
10.7.6 GRU293
10.7.7 層歸一化294
10.8 循環神經網絡的應用295
10.8.1 使用ELMo的上下文
詞嵌入295
10.8.2 圖像描述的應用296
10.8.3 序列到序列學習與機器
翻譯297
10.8.4 句子級分類應用300
10.8.5 使用語言特征的詞條級
分類300
10.9 面向文本的卷積神經網絡301
10.10 本章小結303
10.11 參考資料303
10.12 習題304第11章 註意力機制與
Transformer306
11.1 導論306
11.2 機器翻譯的註意力機制307
11.2.1 Luong註意力模型308
11.2.2 Bahdanau註意力的變體
與比較310
11.3 Transformer網絡311
11.3.1 自註意力如何發揮
作用311
11.3.2 自註意力模塊312
11.3.3 納入位置信息314
11.3.4 序列到序列的
Transformer314
11.3.5 多頭註意力315
11.4 基於Transformer的預訓練
語言模型315
11.4.1 GPT-n316
11.4.2 BERT317
11.4.3 T5318
11.5 自然語言處理的應用320
11.5.1 GLUE和SuperGLUE
基準320
11.5.2 CoLA320
11.5.3 情感分析321
11.5.4 詞條級分類321
11.5.5 機器翻譯與摘要321
11.5.6 文本蘊涵322
11.5.7 語義文本相似度322
11.5.8 詞義消歧323
11.5.9 指代消解323
11.5.10 問答系統323
11.6 本章小結323
11.7 參考資料324
11.8 習題324第12章 文本摘要325
12.1 導論325
12.1.1 提取式摘要與抽象式
摘要326
12.1.2 提取式摘要中的關鍵
步驟326
12.1.3 提取式摘要中的分割
階段327
12.2 提取式摘要的主題詞方法327
12.2.1 詞項概率327
12.2.2 歸一化頻率權重328
12.2.3 主題簽名329
12.2.4 句子選擇方法330
12.3 提取式摘要的潛在方法331
12.3.1 潛在語義分析331
12.3.2 詞匯鏈332
12.3.3 基於圖的方法334
12.3.4 質心摘要335
12.4 面向提取式摘要的傳統機器
學習335
12.4.1 特征提取336
12.4.2 使用哪種分類器336
12.5 面向提取式摘要的深度
學習336
12.5.1 循環神經網絡337
12.5.2 使用基於Transformer
的預訓練語言
模型338
12.6 多文檔摘要339
12.6.1 基於質心的摘要339
12.6.2 基於圖的方法340
12.7 抽象式摘要340
12.7.1 句子壓縮341
12.7.2 信息融合341
12.7.3 信息排列341
12.7.4 面向摘要的循環神經
網絡342
12.7.5 基於Transformer的
抽象式摘要342
12.8 本章小結343
12.9 參考資料344
12.10 習題345第13章 信息提取與知識圖譜346
13.1 導論346
13.1.1 歷史演變348
13.1.2 自然語言處理的
角色348
13.2 命名實體識別350
13.2.1 基於規則的方法351
13.2.2 轉化為詞條級分類
任務354
13.2.3 隱馬爾可夫模型354
13.2.4 最大熵馬爾可夫
模型358
13.2.5 條件隨機場359
13.2.6 用於實體提取的深度
學習360
13.3 關系提取362
13.3.1 轉換為分類問題362
13.3.2 利用顯式特征工程進行
關系預測363
13.3.3 利用隱式特征工程進行
關系預測:核方法366
13.3.4 利用預訓練語言模型
進行關系提取369
13.4 知識圖譜370
13.4.1 構建知識圖譜374
13.4.2 搜索中的知識圖譜376
13.5 本章小結378
13.6 參考資料378
13.6.1 弱監督學習方法379
13.6.2 無監督與開放式信息
提取379
13.6.3 軟件資源380
13.7 習題380第14章 問 答 系 統381
14.1 導論381
14.2 閱讀理解任務384
14.2.1 使用帶有註意力的
循環神經網絡385
14.2.2 利用預訓練語言
模型388
14.3 面向開放域問答的檢索389
14.3.1 開放式檢索問答中的
稠密檢索390
14.3.2 顯著跨度掩碼392
14.4 使用預訓練語言模型的封閉
書本系統392
14.5 使用知識圖譜進行問答394
14.5.1 利用查詢翻譯394
14.5.2 融合文本和結構化
數據395
14.5.3 從知識圖譜到語料庫
的翻譯396
14.6 長篇問答的挑戰397
14.7 本章小結398
14.8 參考資料398
14.8.1 用於評估的數據集399
14.8.2 軟件資源399
14.9 習題399第15章 意見挖掘與情感分析400
15.1 導論400
15.2 文檔級情感分析404
15.3 短語級與句子級情感分類407
15.3.1 句子級與短語級分析
的應用407
15.3.2 主觀性分類到最小割
問題的歸約407
15.3.3 句子級與短語級極性
分析中的上下文408
15.3.4 使用深度學習進行情感
分析408
15.4 把基於方面的意見挖掘看作
信息提取任務410
15.4.1 Hu和Liu的無監督
方法410
15.4.2 OPINE:一種無監督
方法411
15.4.3 把有監督意見提取看作
詞條級分類任務412
15.5 虛假意見413
15.5.1 面向虛假評論檢測的
有監督方法413
15.5.2 面向虛假評論制造者
檢測的無監督方法415
15.6 意見摘要416
15.6.1 評分總結416
15.6.2 情感總結416
15.6.3 基於短語與句子的
情感總結416
15.6.4 提取式與抽象式
總結416
15.7 本章小結417
15.8 參考資料417
15.9 習題418第16章 文本分割與事件檢測419
16.1 導論419
16.2 文本分割420
16.2.1 TextTiling421
16.2.2 C99方法421
16.2.3 基於現成分類器的
有監督分割423
16.2.4 基於馬爾可夫模型的
有監督分割424
16.3 文本流挖掘425
16.3.1 流式文本聚類426
16.3.2 面向首次報道檢測的
應用426
16.4 檢測427
16.4.1 無監督事件檢測428
16.4.2 把有監督事件檢測看作
有監督分割任務429
16.4.3 把事件檢測看作一個
信息提取問題430
16.5 本章小結432
16.6 參考資料432
16.7 習題433參考文獻434
