自然語言處理中的貝葉斯分析, 2/e (Bayesian Analysis in Natural Language Processing, 2/e)

Shay Cohen 楊偉袁科譯譯

買這商品的人也買了...

商品描述

本書涵蓋了流利閱讀NLP中貝葉斯學習方向的論文以及從事該領域的研究所需的方法和算法。
這些方法和算法部分來自於機器學習和統計學,部分是針對NLP開發的。
我們涵蓋推理技術,如馬爾科夫鏈、蒙特卡羅抽樣和變分推理、貝葉斯估計和非參數建模。
為了應對該領域的快速變化,本書新版增加了一個新的章節,關於貝葉斯背景下的表現學習和神經網絡。
我們還將介紹貝葉斯統計的基本概念,如先驗分佈、共軛性和生成式建模。
後,我們回顧了一些基本的NLP建模技術,如語法建模、神經網絡和表示學習,以及它們在貝葉斯分析中的應用。

作者簡介

謝伊·科恩(Shay Cohen)
愛丁堡大學信息學院語言、認知和計算研究所的講師,他於2000年和2004年在特拉維夫大學分別取得數學和計算機科學學士學位與計算機科學碩士學位,並於2011年在卡內基-梅隆大學取得語言技術博士學位,在哥倫比亞大學(2011~2013)和愛丁堡大學(2013~2018)的博士後研究期間,分別獲得計算創新獎學金和大學校長獎學金。
他的研究方向是自然語言處理和機器學習,重點研究結構化預測中的問題,比如句法和語義解析。

目錄大綱

譯者序
第2版前言
第1版前言
第1版致謝
第1章基礎知識 1
1.1 概率測度 1
1.2 隨機變量 2
1.2.1 連續隨機變量和離散隨機變量 2
1.2.2 多元隨機變量的聯合分佈 3
1.3 條件分佈 4
1.3.1 貝葉斯法則 5
1.3.2 獨立隨機變量與條件獨立隨機變量 6
1.3.3 可交換的隨機變量 6
1.4 隨機變量的期望 7
1.5 模型 9
1.5.1 參數模型與非參數模型 9
1.5.2 模型推斷10
1.5.3 生成模型11
1.5.4 模型中的獨立性假定13
1.5.5 有向圖模型13
1.6 從數據場景中學習15
1.7 貝葉斯學派和頻率學派的哲學(冰山一角) 17
1.8 本章小結17
1.9 習題18

第2章緒論19
2.1 貝葉斯統計與自然語言處理的結合點概述19
2.2 第一個例子:隱狄利克雷分配模型22
2.2.1 狄利克雷分佈26
2.2.2 推斷28
2.2.3 總結29
2.3 第二個例子:貝葉斯文本回歸30
2.4 本章小結31
2.5 習題31

第3章先驗33
3.1 共軛先驗33
3.1.1 共軛先驗和歸一化常數36
3.1.2 共軛先驗在隱變量模型中的應用37
3.1.3 混合共軛先驗38
3.1.4 重新歸一化共軛分佈39
3.1.5 是否共軛的討論39
3.1.6 總結40
3.2 多項式分佈和類別分佈的先驗40
3.2.1 再談狄利克雷分佈41
3.2.2 Logistic正態分佈44
3.2.3 討論48
3.2.4 總結49
3.3 非信息先驗49
3.3.1 均勻不正常先驗50
3.3.2 Jeffreys先驗51
3.3.3 討論51
3.4 共軛指數模型52
3.5 模型中的多參數抽取53
3.6 結構先驗54
3.7 本章小結55
3.8 習題56

第4章貝葉斯估計57
4.1 隱變量學習:兩種觀點58
4.2 貝葉斯點估計58
4.2.1 最大後驗估計59
4.2.2 基於最大後驗解的後驗近似64
4.2.3 決策-理論點估計65
4.2.4 總結66
4.3 經驗貝葉斯66
4.4 後驗的漸近行為68
4.5 本章小結69
4.6 習題69

第5章採樣算法70
5.1 MCMC算法:概述71
5.2 MCMC推斷的自然語言處理模型結構71
5.3 吉布斯採樣73
5.3.1 坍塌吉布斯採樣76
5.3.2 運算符視圖79
5.3.3 並行化的吉布斯採樣器80
5.3.4 總結81
5.4 Metropolis-Hastings算法82
5.5 切片採樣84
5.5.1 輔助變量採樣85
5.5.2 切片採樣和輔助變量採樣在自然語言處理中的應用85
5.6 模擬退火86
5.7 MCMC算法的收斂性86
5.8 馬爾可夫鏈:基本理論88
5.9 MCMC領域外的採樣算法89
5.10 蒙特卡羅積分91
5.11 討論93
5.11.1 分佈的可計算性與採樣93
5.11.2 嵌套的MCMC採樣93
5.11.3 MCMC方法的運行時間93
5.11.4 粒子濾波93
5.12 本章小結95
5.13 習題95

第6章變分推斷97
6.1 邊緣對數似然的變分界97
6.2 平均場近似99
6.3 平均場變分推斷算法100
6.3.1 狄利克雷-多項式變分推斷101
6.3.2 與期望最大化算法的聯繫104
6.4 基於變分推斷的經驗貝葉斯106
6.5 討論106
6.5.1 推斷算法的初始化107
6.5.2 收斂性診斷107
6.5.3 變分推斷在解碼中的應用107
6.5.4 變分推斷最小化KL散度108
6.5.5 在線的變分推斷109
6.6 本章小結109
6.7 習題109

第7章非參數先驗111
7.1 狄利克雷過程:三種視角112
7.1.1 折棍子過程112
7.1.2 中餐館過程114
7.2 狄利克雷過程混合模型115
7.2.1 基於狄利克雷過程混合模型的推斷116
7.2.2 狄利克雷過程混合是混合模型的極限118
7.3 層次狄利克雷過程119
7.4 Pitman?Yor過程120
7.4.1 Pitman-Yor過程用於語言建模121
7.4.2 Pitman-Yor過程的冪律行為122
7.5 討論123
7.5.1 高斯過程124
7.5.2 印度自助餐過程124
7.5.3 嵌套的中餐館過程125
7.5.4 距離依賴的中餐館過程125
7.5.5 序列記憶器126
7.6 本章小結126
7.7 習題127

第8章貝葉斯語法模型128
8.1 貝葉斯隱馬爾可夫模型129
8.2 概率上下文無關語法131
8.2.1 作為多項式分佈集的PCFG 133
8.2.2 PCFG的基本推斷算法133
8.2.3 作為隱馬爾可夫模型的PCFG 136
8.3 貝葉斯概率上下文無關語法137
8.3.1 PCFG的先驗137
8.3.2 貝葉斯PCFG的蒙特卡羅推斷138
8.3.3 貝葉斯PCFG的變分推斷139
8.4 適配器語法140
8.4.1 Pitman-Yor適配器語法141
8.4.2 PYAG的折棍子視角142
8.4.3 基於PYAG的推斷143
8.5 層次狄利克雷過程PCFG 144
8.6 依存語法147
8.7 同步語法148
8.8 多語言學習149
8.8.1 詞性標註149
8.8.2 語法歸納151
8.9 延伸閱讀152
8.10 本章小結153
8.11 習題153

第9章表徵學習與神經網絡155
9.1 神經網絡與表徵學習:為什麼是現在155
9.2 詞嵌入158
9.2.1 詞嵌入的skip-gram模型158
9.2.2 貝葉斯skip-gram詞嵌入160
9.2.3 討論161
9.3 神經網絡162
9.3.1 頻率論估計和反向傳播算法164
9.3.2 神經網絡權值的先驗166
9.4 神經網絡在自然語言處理中的現代應用168
9.4.1 循環神經網絡和遞歸神經網絡168
9.4.2 梯度消失與梯度爆炸問題169
9.4.3 神經編碼器-解碼器模型172
9.4.4 卷積神經網絡175
9.5 調整神經網絡177
9.5.1 正則化177
9.5.2 超參數調整178
9.6 神經網絡生成建模180
9.6.1 變分自編碼器180
9.6.2 生成對抗網絡185
9.7 本章小結186
9.8 習題187

結束語189
附錄A 基本概念191
附錄B 概率分佈清單197
參考文獻203