文本機器學習

陳小青 黎琳 潘微.

相關主題

商品描述

本書構建了條理清晰的文本分析框架,該框架系統整合了信息檢索、機器學習和自然語言處理的交叉主題,尤其側重深度學習方法的應用,助力讀者形成從基礎到前沿的完整認知體系。全書可分為三大部分,具體如下:基本算法(第1章至第7章):聚焦於文本分析領域的經典算法,深入探討預處理、相似度計算、主題建模、矩陣分解、聚類、分類、回歸以及集成分析等關鍵技術。這些算法作為文本分析的基石,為後續 覆雜的應用奠定了堅實基礎。領域敏感學習與信息檢索(第8章和第9章):圍繞異構環境下的學習模型展開,詳細探討如何將文本與多媒體、網絡鏈接等多元數據進行有機結合。同時,從排序和機器學習方法的獨特視角,深入剖析信息檢索與網絡搜索所面臨的挑戰。自然語言處理( 0章至 6章):討論各類以序列為中心的應用和自然語言處理的前沿技術,包括特征工程、自然語言模型、深度學習、Transformer架構、預訓練語言模型、文本摘要、信息提取、知識圖譜構建、問答系統設計、意見挖掘、文本分割和事件檢測等。

作者簡介

查魯·C. 阿加沃爾(Charu C. Aggarwal)<br />紐約約克敦高地IBM T. J. 沃森研究中心的傑出研究員(DRSM)。他1993年畢業於印度坎普爾理工學院,獲計算機科學學士學位,1996年獲麻省理工學院運籌學博士學位。他在經過同行評審的會議和期刊上發表了400多篇論文,申請或獲得的專利超過80項。他撰寫或編輯了20部著作,包括線性代數、機器學習(文本領域)、神經網絡、 系統和異常值分析等領域的教科書。由於其專利的商業價值,他曾三次被IBM授予“傑出發明家”稱號。他獲得過多項內部和外部獎項,包括EDBT時間考驗獎(2014年)、ACM SIGKDD 創新獎(2019年)和IEEE ICDM研究貢獻獎(2015年)。他還是W. 華萊士·麥克道威爾獎的獲得者,該獎項是IEEE計算機學會在計算機科學領域頒發的 技術榮譽。<br />他曾擔任ACM SIGKDD Explorations主編,目前擔任ACM Transactions on Knowledge Discovery from Data和ACM Books主編。他因“在知識發現和數據挖掘算法方面的貢獻”當選為工業與應用數學學會(SIAM)、美國計算機協會(ACM)和電氣與電子工程師協會(IEEE)會士。

目錄大綱

CONTENTS目 錄<br />譯者序<br />前言<br />作者簡介第1章 文本分析概述1<br /> 1.1 導論1<br /> 1.2 文本學習有何特別之處3<br /> 1.3 文本分析模型4<br />1.3.1 文本預處理和相似度<br />計算4<br />1.3.2 降維與矩陣分解5<br />1.3.3 文本聚類6<br />1.3.4 文本分類與回歸建模8<br />1.3.5 結合文本與異構數據的<br />聯合分析10<br />1.3.6 信息檢索與網頁搜索10<br />1.3.7 序列語言建模與嵌入10<br />1.3.8 Transformer與預訓練語言<br />模型11<br />1.3.9 文本摘要11<br />1.3.10 信息提取11<br />1.3.11 問答系統12<br />1.3.12 意見挖掘與情感分析12<br />1.3.13 文本分割與事件檢測12<br /> 1.4 本章小結12<br /> 1.5 參考資料13<br /> 1.6 習題13第2章 文本預處理與相似度<br />計算14<br /> 2.1 導論14<br /> 2.2 原始文本提取與詞條化15<br /> 2.3 從詞條中提取詞項18<br />2.3.1 停用詞移除18<br />2.3.2 連字符18<br />2.3.3 大小寫轉換19<br />2.3.4 基於用法的合並19<br />2.3.5 詞幹提取19<br /> 2.4 向量空間表示與歸一化20<br /> 2.5 文本中的相似度計算21<br /> 2.6 本章小結24<br /> 2.7 參考資料24<br /> 2.8 習題25第3章 矩陣分解與主題建模26<br /> 3.1 導論26<br /> 3.2 SVD29<br />3.2.1 SVD的例子31<br />3.2.2 實現SVD的冪疊代法32<br />3.2.3 SVD/LSA的應用33<br />3.2.4 SVD/LSA的優缺點33<br /> 3.3 非負矩陣分解34<br />3.3.1 非負矩陣分解的可<br />解釋性35<br />3.3.2 非負矩陣分解的例子36<br />3.3.3 融入新文檔38<br />3.3.4 非負矩陣分解的<br />優缺點38<br /> 3.4 PLSA38<br />3.4.1 與非負矩陣分解的<br />聯系41<br />3.4.2 與SVD的比較42<br />3.4.3 PLSA的例子42<br />3.4.4 PLSA的優缺點42<br /> 3.5 LDA概覽43<br />3.5.1 簡化的LDA模型43<br />3.5.2 平滑的LDA模型46<br /> 3.6 非線性變換和特征工程47<br />3.6.1 選擇一個相似度函數49<br />3.6.2 Nystrm估計55<br />3.6.3 相似度矩陣的部分<br />可用性56<br /> 3.7 本章小結57<br /> 3.8 參考資料58<br /> 3.9 習題59第4章 文 本 聚 類61<br /> 4.1 導論61<br /> 4.2 特征選擇與特征工程62<br />4.2.1 特征選擇63<br />4.2.2 特征工程64<br /> 4.3 主題建模和矩陣分解65<br />4.3.1 混合隸屬度模型與<br />重疊簇65<br />4.3.2 非重疊簇與協同聚類:<br />矩陣分解的角度66<br /> 4.4 面向聚類的生成混合模型69<br />4.4.1 伯努利模型70<br />4.4.2 多項式模型71<br />4.4.3 與混合隸屬度主題模型的<br />比較72<br />4.4.4 與樸素貝葉斯分類模型的<br />聯系73<br /> 4.5 k均值算法73<br />4.5.1 收斂與初始化75<br />4.5.2 計算覆雜度75<br />4.5.3 與概率模型的聯系76<br /> 4.6 層次聚類算法76<br />4.6.1 高效實現與計算<br />覆雜度78<br />4.6.2 與k均值的自然聯姻79<br /> 4.7 聚類集成80<br />4.7.1 選擇集成分量80<br />4.7.2 混合來自不同分量的<br />結果81<br /> 4.8 將文本當作序列來進行聚類81<br />4.8.1 面向聚類的核方法82<br />4.8.2 數據相關的核方法:<br />譜聚類84<br /> 4.9 聚類到有監督學習的轉換86<br /> 4.10 聚類評估87<br />4.10.1 內部有效性度量的<br />缺陷87<br />4.10.2 外部有效性度量87<br /> 4.11 本章小結90<br /> 4.12 參考資料91<br /> 4.13 習題92第5章 文本分類:基本模型93<br /> 5.1 導論93<br />5.1.1 標記的類型與回歸<br />建模94<br />5.1.2 訓練與測試94<br />5.1.3 歸納學習器、直推學習器<br />和演繹學習器95<br />5.1.4 基本模型96<br />5.1.5 分類器中與文本相關的<br />挑戰96<br /> 5.2 特征選擇與特征工程97<br />5.2.1 基尼系數97<br />5.2.2 條件熵98<br />5.2.3 逐點互信息98<br />5.2.4 緊密相關的度量方式98<br />5.2.5 χ2-統計量99<br />5.2.6 嵌入式特征選擇模型100<br />5.2.7 特征工程技巧101<br /> 5.3 樸素貝葉斯模型101<br />5.3.1 伯努利模型102<br />5.3.2 多項式模型104<br />5.3.3 實際觀察105<br />5.3.4 利用樸素貝葉斯對輸出<br />進行排序105<br />5.3.5 樸素貝葉斯的例子105<br />5.3.6 半監督樸素貝葉斯108<br /> 5.4  近鄰分類器109<br />5.4.1 1- 近鄰分類器的<br />屬性110<br />5.4.2 Rocchio與 近質心<br />分類112<br />5.4.3 加權 近鄰113<br />5.4.4 自適應 近鄰:一系列<br />有效的方法115<br /> 5.5 決策樹與隨機森林117<br />5.5.1 構造決策樹的基本<br />步驟117<br />5.5.2 分裂一個節點118<br />5.5.3 多變量分裂119<br />5.5.4 文本分類中的決策樹<br />問題119<br />5.5.5 隨機森林120<br />5.5.6 把隨機森林看作自適應<br /> 近鄰方法121<br /> 5.6 基於規則的分類器121<br />5.6.1 順序覆蓋算法122<br />5.6.2 從決策樹中生成規則124<br />5.6.3 關聯分類器124<br /> 5.7 本章小結125<br /> 5.8 參考資料126<br /> 5.9 習題127第6章 用於分類和回歸的線性<br />模型130<br /> 6.1 導論130<br />6.1.1 線性模型的幾何解釋131<br />6.1.2 我們需要偏置變量嗎132<br />6.1.3 使用正則化的線性模型的<br />一般定義133<br />6.1.4 將二值預測推廣到<br />多類134<br />6.1.5 面向文本的線性模型的<br />特點134<br /> 6.2  小二乘回歸與分類135<br />6.2.1 使用L2正則化的 小<br />二乘回歸135<br />6.2.2 LASSO:使用L1正則化<br />的 小二乘回歸138<br />6.2.3 Fisher線性判別與 小<br />二乘分類器139<br /> 6.3 SVM145<br />6.3.1 正則優化解釋145<br />6.3.2  間隔解釋146<br />6.3.3 Pegasos:在原始空間中<br />求解SVM148<br />6.3.4 對偶SVM的優化<br />形式149<br />6.3.5 對偶SVM的學習<br />算法151<br />6.3.6 對偶SVM的自適應<br /> 近鄰解釋152<br /> 6.4 對數概率回歸153<br />6.4.1 正則優化解釋153<br />6.4.2 對數概率回歸的訓練<br />算法155<br />6.4.3 對數概率回歸的概率<br />解釋156<br />6.4.4 多元對數概率回歸與<br />其他推廣157<br />6.4.5 關於對數概率回歸性能<br />的評述158<br /> 6.5 線性模型的非線性推廣158<br />6.5.1 基於顯式變換的<br />核SVM160<br />6.5.2 為什麼傳統的核函數能夠<br />提升線性可分性161<br />6.5.3 不同核函數的優缺點163<br />6.5.4 核技巧163<br />6.5.5 核技巧的系統性應用164<br /> 6.6 本章小結167<br /> 6.7 參考資料167<br /> 6.8 習題169第7章 分類器的性能與評估171<br /> 7.1 導論171<br /> 7.2 偏置-方差權衡172<br />7.2.1 一個形式化的觀點173<br />7.2.2 偏置和方差的跡象176<br /> 7.3 偏置-方差權衡在性能方面的<br />影響176<br />7.3.1 訓練數據規模的影響176<br />7.3.2 數據維度的影響177<br />7.3.3 文本中模型選擇的<br />影響178<br /> 7.4 利用集成方法系統性地提升<br />性能179<br />7.4.1 bagging與子采樣179<br />7.4.2 boosting180<br /> 7.5 分類器評估182<br />7.5.1 分割為訓練部分和測試<br />部分183<br />7.5.2  準確率度量183<br />7.5.3 面向分類和信息檢索的<br />排序度量186<br /> 7.6 本章小結190<br /> 7.7 參考資料190<br />7.7.1 boosting與對數概率<br />回歸的聯系191<br />7.7.2 分類器評估191<br />7.7.3 軟件資源191<br />7.7.4 用於評估的數據集191<br /> 7.8 習題192第8章 結合異構數據的聯合<br />文本挖掘193<br /> 8.1 導論193<br /> 8.2 共享矩陣分解的技巧195<br />8.2.1 分解圖195<br />8.2.2 應用:結合文本和網頁<br />鏈接進行共享分解196<br />8.2.3 應用:結合文本與無向<br />社交網絡198<br />8.2.4 應用:結合文本的圖像<br />遷移學習199<br />8.2.5 應用:結合評分和文本<br />的 系統202<br />8.2.6 應用:跨語言文本<br />挖掘203<br /> 8.3 分解機204<br /> 8.4 聯合概率建模技術207<br />8.4.1 面向聚類的聯合概率<br />模型207<br />8.4.2 樸素貝葉斯分類器208<br /> 8.5 轉換為圖挖掘技術208<br /> 8.6 本章小結210<br /> 8.7 參考資料211<br /> 8.8 習題212第9章 信息檢索與搜索引擎213<br /> 9.1 導論213<br /> 9.2 索引和查詢處理214<br />9.2.1 詞典數據結構215<br />9.2.2 倒排索引216<br />9.2.3 線性時間的索引構建217<br />9.2.4 查詢處理219<br />9.2.5 效率優化227<br /> 9.3 信息檢索模型的評分230<br />9.3.1 基於tf-idf的向量空間<br />模型230<br />9.3.2 二值獨立模型231<br />9.3.3 使用詞項頻率的BM25<br />模型234<br />9.3.4 信息檢索中的統計語言<br />模型235<br /> 9.4 網絡爬蟲與資源發現236<br />9.4.1 一個基本的爬蟲算法237<br />9.4.2 帶偏好的爬蟲238<br />9.4.3 多線程239<br />9.4.4 避開蜘蛛陷阱240<br />9.4.5 用於近似重覆檢測的<br />Shingling方法240<br /> 9.5 搜索引擎中的查詢處理240<br />9.5.1 分布式索引構建241<br />9.5.2 動態索引 新242<br />9.5.3 查詢處理242<br />9.5.4 信譽度的重要性243<br /> 9.6 基於鏈接的排序算法244<br />9.6.1 PageRank244<br />9.6.2 HITS248<br /> 9.7 本章小結249<br /> 9.8 參考資料250<br /> 9.9 習題251 0章 語言建模與深度學習252<br /> 10.1 導論252<br /> 10.2 統計語言模型254<br />10.2.1 skip-gram模型257<br />10.2.2 與嵌入的關系258<br />10.2.3 使用困惑度評估語言<br />模型258<br /> 10.3 面向以序列為中心的學習的<br />核方法259<br /> 10.4 單詞-上下文矩陣分解模型260<br />10.4.1 使用計數的矩陣<br />分解260<br />10.4.2 GloVe嵌入262<br />10.4.3 PPMI矩陣分解262<br />10.4.4 位移PPMI矩陣<br />分解263<br />10.4.5 融入句法和其他<br />特征263<br /> 10.5 單詞距離的圖形化表示263<br /> 10.6 神經網絡與詞嵌入265<br />10.6.1 神經網絡簡介265<br />10.6.2 基於word2vec的神經<br />嵌入274<br />10.6.3 通過對數概率矩陣分解<br />模擬word2vec<br />(SGNS)280<br />10.6.4 除了單詞以外:基於<br />doc2vec的段落<br />嵌入282<br /> 10.7 循環神經網絡283<br />10.7.1 循環神經網絡的語言<br />建模示例285<br />10.7.2 通過時間的反向<br />傳播287<br />10.7.3 雙向循環網絡289<br />10.7.4 多層循環網絡290<br />10.7.5 LSTM291<br />10.7.6 GRU293<br />10.7.7 層歸一化294<br /> 10.8 循環神經網絡的應用295<br />10.8.1 使用ELMo的上下文<br />詞嵌入295<br />10.8.2 圖像描述的應用296<br />10.8.3 序列到序列學習與機器<br />翻譯297<br />10.8.4 句子級分類應用300<br />10.8.5 使用語言特征的詞條級<br />分類300<br /> 10.9 面向文本的卷積神經網絡301<br /> 10.10 本章小結303<br /> 10.11 參考資料303<br /> 10.12 習題304 1章 註意力機制與<br />Transformer306<br /> 11.1 導論306<br /> 11.2 機器翻譯的註意力機制307<br />11.2.1 Luong註意力模型308<br />11.2.2 Bahdanau註意力的變體<br />與比較310<br /> 11.3 Transformer網絡311<br />11.3.1 自註意力如何發揮<br />作用311<br />11.3.2 自註意力模塊312<br />11.3.3 納入位置信息314<br />11.3.4 序列到序列的<br />Transformer314<br />11.3.5 多頭註意力315<br /> 11.4 基於Transformer的預訓練<br />語言模型315<br />11.4.1 GPT-n316<br />11.4.2 BERT317<br />11.4.3 T5318<br /> 11.5 自然語言處理的應用320<br />11.5.1 GLUE和SuperGLUE<br />基準320<br />11.5.2 CoLA320<br />11.5.3 情感分析321<br />11.5.4 詞條級分類321<br />11.5.5 機器翻譯與摘要321<br />11.5.6 文本蘊涵322<br />11.5.7 語義文本相似度322<br />11.5.8 詞義消歧323<br />11.5.9 指代消解323<br />11.5.10 問答系統323<br /> 11.6 本章小結323<br /> 11.7 參考資料324<br /> 11.8 習題324 2章 文本摘要325<br /> 12.1 導論325<br />12.1.1 提取式摘要與抽象式<br />摘要326<br />12.1.2 提取式摘要中的關鍵<br />步驟326<br />12.1.3 提取式摘要中的分割<br />階段327<br /> 12.2 提取式摘要的主題詞方法327<br />12.2.1 詞項概率327<br />12.2.2 歸一化頻率權重328<br />12.2.3 主題簽名329<br />12.2.4 句子選擇方法330<br /> 12.3 提取式摘要的潛在方法331<br />12.3.1 潛在語義分析331<br />12.3.2 詞匯鏈332<br />12.3.3 基於圖的方法334<br />12.3.4 質心摘要335<br /> 12.4 面向提取式摘要的傳統機器<br />學習335<br />12.4.1 特征提取336<br />12.4.2 使用哪種分類器336<br /> 12.5 面向提取式摘要的深度<br />學習336<br />12.5.1 循環神經網絡337<br />12.5.2 使用基於Transformer<br />的預訓練語言<br />模型338<br /> 12.6 多文檔摘要339<br />12.6.1 基於質心的摘要339<br />12.6.2 基於圖的方法340<br /> 12.7 抽象式摘要340<br />12.7.1 句子壓縮341<br />12.7.2 信息融合341<br />12.7.3 信息排列341<br />12.7.4 面向摘要的循環神經<br />網絡342<br />12.7.5 基於Transformer的<br />抽象式摘要342<br /> 12.8 本章小結343<br /> 12.9 參考資料344<br /> 12.10 習題345 3章 信息提取與知識圖譜346<br /> 13.1 導論346<br />13.1.1 歷史演變348<br />13.1.2 自然語言處理的<br />角色348<br /> 13.2 命名實體識別350<br />13.2.1 基於規則的方法351<br />13.2.2 轉化為詞條級分類<br />任務354<br />13.2.3 隱馬爾可夫模型354<br />13.2.4  熵馬爾可夫<br />模型358<br />13.2.5 條件隨機場359<br />13.2.6 用於實體提取的深度<br />學習360<br /> 13.3 關系提取362<br />13.3.1 轉換為分類問題362<br />13.3.2 利用顯式特征工程進行<br />關系預測363<br />13.3.3 利用隱式特征工程進行<br />關系預測:核方法366<br />13.3.4 利用預訓練語言模型<br />進行關系提取369<br /> 13.4 知識圖譜370<br />13.4.1 構建知識圖譜374<br />13.4.2 搜索中的知識圖譜376<br /> 13.5 本章小結378<br /> 13.6 參考資料378<br />13.6.1 弱監督學習方法379<br />13.6.2 無監督與開放式信息<br />提取379<br />13.6.3 軟件資源380<br /> 13.7 習題380 4章 問 答 系 統381<br /> 14.1 導論381<br /> 14.2 閱讀理解任務384<br />14.2.1 使用帶有註意力的<br />循環神經網絡385<br />14.2.2 利用預訓練語言<br />模型388<br /> 14.3 面向開放域問答的檢索389<br />14.3.1 開放式檢索問答中的<br />稠密檢索390<br />14.3.2 顯著跨度掩碼392<br /> 14.4 使用預訓練語言模型的封閉<br />書本系統392<br /> 14.5 使用知識圖譜進行問答394<br />14.5.1 利用查詢翻譯394<br />14.5.2 融合文本和結構化<br />數據395<br />14.5.3 從知識圖譜到語料庫<br />的翻譯396<br /> 14.6 長篇問答的挑戰397<br /> 14.7 本章小結398<br /> 14.8 參考資料398<br />14.8.1 用於評估的數據集399<br />14.8.2 軟件資源399<br /> 14.9 習題399 5章 意見挖掘與情感分析400<br /> 15.1 導論400<br /> 15.2 文檔級情感分析404<br /> 15.3 短語級與句子級情感分類407<br />15.3.1 句子級與短語級分析<br />的應用407<br />15.3.2 主觀性分類到 小割<br />問題的歸約407<br />15.3.3 句子級與短語級極性<br />分析中的上下文408<br />15.3.4 使用深度學習進行情感<br />分析408<br /> 15.4 把基於方面的意見挖掘看作<br />信息提取任務410<br />15.4.1 Hu和Liu的無監督<br />方法410<br />15.4.2 OPINE:一種無監督<br />方法411<br />15.4.3 把有監督意見提取看作<br />詞條級分類任務412<br /> 15.5 虛假意見413<br />15.5.1 面向虛假評論檢測的<br />有監督方法413<br />15.5.2 面向虛假評論制造者<br />檢測的無監督方法415<br /> 15.6 意見摘要416<br />15.6.1 評分總結416<br />15.6.2 情感總結416<br />15.6.3 基於短語與句子的<br />情感總結416<br />15.6.4 提取式與抽象式<br />總結416<br /> 15.7 本章小結417<br /> 15.8 參考資料417<br /> 15.9 習題418 6章 文本分割與事件檢測419<br /> 16.1 導論419<br /> 16.2 文本分割420<br />16.2.1 TextTiling421<br />16.2.2 C99方法421<br />16.2.3 基於現成分類器的<br />有監督分割423<br />16.2.4 基於馬爾可夫模型的<br />有監督分割424<br /> 16.3 文本流挖掘425<br />16.3.1 流式文本聚類426<br />16.3.2 面向 報道檢測的<br />應用426<br /> 16.4 事件檢測427<br />16.4.1 無監督事件檢測428<br />16.4.2 把有監督事件檢測看作<br />有監督分割任務429<br />16.4.3 把事件檢測看作一個<br />信息提取問題430<br /> 16.5 本章小結432<br /> 16.6 參考資料432<br /> 16.7 習題433參考文獻434