本書涵蓋了流利閱讀NLP中貝葉斯學(xué)習(xí)方向的論文以及從事該領(lǐng)域的研究所需的方法和算法。這些方法和算法部分來自于機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué),部分是針對(duì)NLP開發(fā)的。我們涵蓋推理技術(shù),如馬爾科夫鏈、蒙特卡羅抽樣和變分推理、貝葉斯估計(jì)和非參數(shù)建模。為了應(yīng)對(duì)該領(lǐng)域的快速變化,本書新版增加了一個(gè)新的章節(jié),關(guān)于貝葉斯背景下的表現(xiàn)學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)。我們還將介紹貝葉斯統(tǒng)計(jì)的基本概念,如先驗(yàn)分布、共軛性和生成式建模。最后,我們回顧了一些基本的NLP建模技術(shù),如語法建模、神經(jīng)網(wǎng)絡(luò)和表示學(xué)習(xí),以及它們在貝葉斯分析中的應(yīng)用。
譯者序
第2版前言
第1版前言
第1版致謝
第1章 基礎(chǔ)知識(shí) 1
1.1 概率測度 1
1.2 隨機(jī)變量 2
1.2.1 連續(xù)隨機(jī)變量和離散隨機(jī)變量 2
1.2.2 多元隨機(jī)變量的聯(lián)合分布 3
1.3 條件分布 4
1.3.1 貝葉斯法則 5
1.3.2 獨(dú)立隨機(jī)變量與條件獨(dú)立隨機(jī)變量 6
1.3.3 可交換的隨機(jī)變量 6
1.4 隨機(jī)變量的期望 7
1.5 模型 9
1.5.1 參數(shù)模型與非參數(shù)模型 9
1.5.2 模型推斷 10
1.5.3 生成模型 11
1.5.4 模型中的獨(dú)立性假定 13
1.5.5 有向圖模型 13
1.6 從數(shù)據(jù)場景中學(xué)習(xí) 15
1.7 貝葉斯學(xué)派和頻率學(xué)派的哲學(xué)(冰山一角) 17
1.8 本章小結(jié) 17
1.9 習(xí)題 18
第2章 緒論 19
2.1 貝葉斯統(tǒng)計(jì)與自然語言處理的結(jié)合點(diǎn)概述 19
2.2 第一個(gè)例子:隱狄利克雷分配模型 22
2.2.1 狄利克雷分布 26
2.2.2 推斷 28
2.2.3 總結(jié) 29
2.3 第二個(gè)例子:貝葉斯文本回歸 30
2.4 本章小結(jié) 31
2.5 習(xí)題 31
第3章 先驗(yàn) 33
3.1 共軛先驗(yàn) 33
3.1.1 共軛先驗(yàn)和歸一化常數(shù) 36
3.1.2 共軛先驗(yàn)在隱變量模型中的應(yīng)用 37
3.1.3 混合共軛先驗(yàn) 38
3.1.4 重新歸一化共軛分布 39
3.1.5 是否共軛的討論 39
3.1.6 總結(jié) 40
3.2 多項(xiàng)式分布和類別分布的先驗(yàn) 40
3.2.1 再談狄利克雷分布 41
3.2.2 Logistic正態(tài)分布 44
3.2.3 討論 48
3.2.4 總結(jié) 49
3.3 非信息先驗(yàn) 49
3.3.1 均勻不正常先驗(yàn) 50
3.3.2 Jeffreys先驗(yàn) 51
3.3.3 討論 51
3.4 共軛指數(shù)模型 52
3.5 模型中的多參數(shù)抽取 53
3.6 結(jié)構(gòu)先驗(yàn) 54
3.7 本章小結(jié) 55
3.8 習(xí)題 56
第4章 貝葉斯估計(jì) 57
4.1 隱變量學(xué)習(xí):兩種觀點(diǎn) 58
4.2 貝葉斯點(diǎn)估計(jì) 58
4.2.1 最大后驗(yàn)估計(jì) 59
4.2.2 基于最大后驗(yàn)解的后驗(yàn)近似 64
4.2.3 決策-理論點(diǎn)估計(jì) 65
4.2.4 總結(jié) 66
4.3 經(jīng)驗(yàn)貝葉斯 66
4.4 后驗(yàn)的漸近行為 68
4.5 本章小結(jié) 69
4.6 習(xí)題 69
第5章 采樣算法 70
5.1 MCMC算法:概述 71
5.2 MCMC推斷的自然語言處理模型結(jié)構(gòu) 71
5.3 吉布斯采樣 73
5.3.1 坍塌吉布斯采樣 76
5.3.2 運(yùn)算符視圖 79
5.3.3 并行化的吉布斯采樣器 80
5.3.4 總結(jié) 81
5.4 Metropolis-Hastings算法 82
5.5 切片采樣 84
5.5.1 輔助變量采樣 85
5.5.2 切片采樣和輔助變量采樣在自然語言處理中的應(yīng)用 85
5.6 模擬退火 86
5.7 MCMC算法的收斂性 86
5.8 馬爾可夫鏈:基本理論 88
5.9 MCMC領(lǐng)域外的采樣算法 89
5.10 蒙特卡羅積分 91
5.11 討論 93
5.11.1 分布的可計(jì)算性與采樣 93
5.11.2 嵌套的MCMC采樣 93
5.11.3 MCMC方法的運(yùn)行時(shí)間 93
5.11.4 粒子濾波 93
5.12 本章小結(jié) 95
5.13 習(xí)題 95
第6章 變分推斷 97
6.1 邊緣對(duì)數(shù)似然的變分界 97
6.2 平均場近似 99
6.3 平均場變分推斷算法 100
6.3.1 狄利克雷-多項(xiàng)式變分推斷 101
6.3.2 與期望最大化算法的聯(lián)系 104
6.4 基于變分推斷的經(jīng)驗(yàn)貝葉斯 106
6.5 討論 106
6.5.1 推斷算法的初始化 107
6.5.2 收斂性診斷 107
6.5.3 變分推斷在解碼中的應(yīng)用 107
6.5.4 變分推斷最小化KL散度 108
6.5.5 在線的變分推斷 109
6.6 本章小結(jié) 109
6.7 習(xí)題 109
第7章 非參數(shù)先驗(yàn) 111
7.1 狄利克雷過程:三種視角 112
7.1.1 折棍子過程 112
7.1.2 中餐館過程 114
7.2 狄利克雷過程混合模型 115
7.2.1 基于狄利克雷過程混合模型的推斷 116
7.2.2 狄利克雷過程混合是混合模型的極限 118
7.3 層次狄利克雷過程 119
7.4 Pitman?Yor過程 120
7.4.1 Pitman-Yor過程用于語言建模 121
7.4.2 Pitman-Yor過程的冪律行為 122
7.5 討論 123
7.5.1 高斯過程 124
7.5.2 印度自助餐過程 124
7.5.3 嵌套的中餐館過程 125
7.5.4 距離依賴的中餐館過程 125
7.5.5 序列記憶器 126
7.6 本章小結(jié) 126
7.7 習(xí)題 127
第8章 貝葉斯語法模型 128
8.1 貝葉斯隱馬爾可夫模型 129
8.2 概率上下文無關(guān)語法 131
8.2.1 作為多項(xiàng)式分布集的PCFG 133
8.2.2 PCFG的基本推斷算法 133
8.2.3 作為隱馬爾可夫模型的PCFG 136
8.3 貝葉斯概率上下文無關(guān)語法 137
8.3.1 PCFG的先驗(yàn) 137
8.3.2 貝葉斯PCFG的蒙特卡羅推斷 138
8.3.3 貝葉斯PCFG的變分推斷 139
8.4 適配器語法 140
8.4.1 Pitman-Yor適配器語法 141
8.4.2 PYAG的折棍子視角 142
8.4.3 基于PYAG的推斷 143
8.5 層次狄利克雷過程PCFG 144
8.6 依存語法 147
8.7 同步語法 148
8.8 多語言學(xué)習(xí) 149
8.8.1 詞性標(biāo)注 149
8.8.2 語法歸納 151
8.9 延伸閱讀 152
8.10 本章小結(jié) 153
8.11 習(xí)題 153
第9章 表征學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò) 155
9.1 神經(jīng)網(wǎng)絡(luò)與表征學(xué)習(xí):為什么是現(xiàn)在 155
9.2 詞嵌入 158
9.2.1 詞嵌入的skip-gram模型 158
9.2.2 貝葉斯skip-gram詞嵌入 160
9.2.3 討論 161
9.3 神經(jīng)網(wǎng)絡(luò) 162
9.3.1 頻率論估計(jì)和反向傳播算法 164
9.3.2 神經(jīng)網(wǎng)絡(luò)權(quán)值的先驗(yàn) 166
9.4 神經(jīng)網(wǎng)絡(luò)在自然語言處理中的現(xiàn)代應(yīng)用 168
9.4.1 循環(huán)神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò) 168
9.4.2 梯度消失與梯度爆炸問題 169
9.4.3 神經(jīng)編碼器-解碼器模型 172
9.4.4 卷積神經(jīng)網(wǎng)絡(luò) 175
9.5 調(diào)整神經(jīng)網(wǎng)絡(luò) 177
9.5.1 正則化 177
9.5.2 超參數(shù)調(diào)整 178
9.6 神經(jīng)網(wǎng)絡(luò)生成建模 180
9.6.1 變分自編碼器 180
9.6.2 生成對(duì)抗網(wǎng)絡(luò) 185
9.7 本章小結(jié) 186
9.8 習(xí)題 187
結(jié)束語 189
附錄A 基本概念 191
附錄B 概率分布清單 197
參考文獻(xiàn) 203