本書總結(jié)了以神經(jīng)網(wǎng)絡(luò)為代表的現(xiàn)代自然語(yǔ)言生成的基本思想、模型和框架。本書共12
章,首先介紹了自然語(yǔ)言生成的研究背景、從統(tǒng)計(jì)語(yǔ)言模型到神經(jīng)網(wǎng)絡(luò)語(yǔ)言建模的過(guò)程,以及自然語(yǔ)言建模的思想與技術(shù)演化過(guò)程;其次從基礎(chǔ)模型角度介紹了基于循環(huán)神經(jīng)網(wǎng)絡(luò)、基于Transformer
的語(yǔ)言生成模型,從優(yōu)化方法角度介紹了基于變分自編碼器、基于生成式對(duì)抗網(wǎng)絡(luò)的語(yǔ)言生成模型,從生成方式角度介紹了非自回歸語(yǔ)言生成的基本模型和框架;然后介紹了融合規(guī)劃的自然語(yǔ)言生成、融合知識(shí)的自然語(yǔ)言生成、常見(jiàn)的自然語(yǔ)言生成任務(wù)和數(shù)據(jù)資源,以及自然語(yǔ)言生成的評(píng)價(jià)方法;最后總結(jié)了本書的寫作思路及對(duì)自然語(yǔ)言生成領(lǐng)域未來(lái)發(fā)展趨勢(shì)的展望。
本書可作為高等院校計(jì)算機(jī)科學(xué)與技術(shù)、人工智能、大數(shù)據(jù)等相關(guān)專業(yè)高年級(jí)本科生、研究生相關(guān)課程的教材,也適合從事自然語(yǔ)言處理研究、應(yīng)用實(shí)踐的科研人員和工程技術(shù)人員參考。
黃民,清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系長(zhǎng)聘副要研究興括人工智能、自然語(yǔ)言處理,尤其是對(duì)話系統(tǒng)、語(yǔ)言生成。曾獲中國(guó)人工智能學(xué)會(huì)吳文俊人工智能科步獎(jiǎng)()、中文信息學(xué)會(huì)漢王青年創(chuàng)新獎(jiǎng),多次在國(guó)際主流會(huì)議獲得或杰出論文獎(jiǎng)。研發(fā)對(duì)話系臺(tái)ConvLab和ConvLab-2,獲得NTCIR
2017年組織的短文本對(duì)話生成評(píng)測(cè)。擔(dān)任神經(jīng)領(lǐng)域期刊TNNLS(SCI一區(qū),影響因子>11)編委,自然語(yǔ)言處理領(lǐng)域期刊TACL執(zhí)行編輯,多次擔(dān)任自然語(yǔ)言處理會(huì)議ACL、EMNLP的領(lǐng)或資深領(lǐng)。
第1 章自然語(yǔ)言生成的研究背景. . . . . . . 1
1.1 自然語(yǔ)言生成的背景概述. . . . . . . 1
1.2 基本定義與研究范疇. . . . . . . . . . . .2
1.3 自然語(yǔ)言生成與自然語(yǔ)言理解. . .3
1.4 傳統(tǒng)的模塊化生成框架. . . . . . . . . 4
1.5 端到端的自然語(yǔ)言生成框架. . . . . 7
1.6 典型的自然語(yǔ)言生成任務(wù). . . . . . . 9
1.7 自然語(yǔ)言生成的可控性. . . . . . . . 12
1.8 本書結(jié)構(gòu). . . . . . . . . . . . . . . . . . . . . . 14
第2 章從統(tǒng)計(jì)語(yǔ)言模型到神經(jīng)網(wǎng)絡(luò)語(yǔ)言建模. . . . . . . . . . . . . . . . . . . . . . 15
2.1 統(tǒng)計(jì)語(yǔ)言模型. . . . . . . . . . . . . . . . . 15
2.1.1 基本原理. . . . . . . . . . . . . . . . . . 15
2.1.2滑技術(shù). . . . . . . . . . . . . . . . . . 17
2.1.3 語(yǔ)言模型評(píng)價(jià). . . . . . . . . . . . . . 19
2.1.4 統(tǒng)計(jì)語(yǔ)言模型的缺點(diǎn). . . . . . . . 20
2.2 神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型. . . . . . . . . . . . . 21
2.2.1 前饋神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型. . . . . . 21
2.2.2 基于循環(huán)神經(jīng)網(wǎng)絡(luò)的神經(jīng)語(yǔ)言模型. . . . . . . . . . . . . . 24
2.2.3 基于Transformer 的神經(jīng)語(yǔ)言模型. . . . . . . . . . . . . . 24
2.3 靜態(tài)詞向量模型. . . . . . . . . . . . . . . 26
2.3.1 分布假設(shè)與分布式表示. . . . . . 26
2.3.2 詞向量模型CBOW 和Skip-gram. . . . . . . . . . . . . . . . .27
2.3.3 詞向量模型訓(xùn)練優(yōu)化:負(fù)采樣. . . . . . . . . . . . . . . . . . . .30
2.3.4 詞向量模型訓(xùn)練優(yōu)化:層次化softmax . . . . . . . . . . . . 31
2.3.5 靜態(tài)詞向量的缺陷. . . . . . . . . . 32
2.4 語(yǔ)境化語(yǔ)言表示模型. . . . . . . . . . 33
2.4.1 ELMo . . . . . . . . . . . . . . . . . . . . 34
2.4.2 BERT . . . . . . . . . . . . . . . . . . . . 36
2.4.3 XLNet. . . . . . . . . . . . . . . . . . . .38
2.5 本章小結(jié). . . . . . . . . . . . . . . . . . . . . . 39
第3 章基于RNN 的語(yǔ)言生成模型. . .41
3.1 RNN 的基本原理. . . . . . . . . . . . . . 41
3.2 RNN 的訓(xùn)練算法. . . . . . . . . . . . . . 42
3.3 長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)與門控循環(huán)單元. . . . . . . . . . . . . . . . . 45
3.4 RNN 的架構(gòu)設(shè)計(jì). . . . . . . . . . . . . . 47
3.4.1 多層RNN . . . . . . . . . . . . . . . . 47
3.4.2 雙向RNN . . . . . . . . . . . . . . . . 48
3.5 基于RNN 的語(yǔ)言模型. . . . . . . . 48
3.5.1 模型結(jié)構(gòu). . . . . . . . . . . . . . . . . . 49
3.5.2 主要問(wèn)題. . . . . . . . . . . . . . . . . . 50
3.5.3 模型. . . . . . . . . . . . . . . . . . 51
3.6 序列到序列模型. . . . . . . . . . . . . . . 52
3.6.1 基本原理. . . . . . . . . . . . . . . . . . 52
3.6.2 模型結(jié)構(gòu). . . . . . . . . . . . . . . . . . 53
3.6.3 注意力機(jī)制. . . . . . . . . . . . . . . . 54
3.7 解碼器的解碼方法. . . . . . . . . . . . . 57
3.7.1 基于搜索的解碼方法. . . . . . . . 59
3.7.2 基于采樣的解碼方法. . . . . . . . 61
3.8 序列到序列模型存在的問(wèn)題. . . .64
3.9 本章小結(jié). . . . . . . . . . . . . . . . . . . . . . 65
第4 章基于Transformer 的語(yǔ)言生成模型. . . . . . . . . . . . . . . . . 66
4.1 Transformer 模型的基本原理. . . . . . . . . . . . . . . . . . . . . . . . . . 66
4.1.1 多頭注意力機(jī)制. . . . . . . . . . . . 66
4.1.2 Transformer 基本單元. . . . . . 69
4.2 基于Transformer 的編碼器―解碼器結(jié)構(gòu). . . . . . . . . . 71
4.2.1 基本原理. . . . . . . . . . . . . . . . . . 71
4.2.2 位置編碼模塊. . . . . . . . . . . . . . 73
4.2.3 Transformer 編碼器. . . . . . . . 74
4.2.4 Transformer 解碼器. . . . . . . . 74
4.3 Transformer 模型與RNN 模型的比較. . . . . . . . . . . . . . 77
4.4 Transformer 模型問(wèn)題與解決方案. . . . . . . . . . . . . . . . . . . . . . 79
4.4.1 長(zhǎng)距離依賴問(wèn)題. . . . . . . . . . . . 79
4.4.2 運(yùn)算復(fù)雜度問(wèn)題. . . . . . . . . . . . 81
4.5 基于Transformer 的預(yù)訓(xùn)練語(yǔ)言生成模型. . . . . . . . . . . . . . . . . . . . . . 85
4.5.1 GPT 模型. . . . . . . . . . . . . . . . .86
4.5.2 GPT-2 和GPT-3 . . . . . . . . . . 88
4.5.3 GPT 模型的擴(kuò)展. . . . . . . . . . . 90
4.6 本章小結(jié). . . . . . . . . . . . . . . . . . . . . . 92
第5 章基于變分自編碼器的語(yǔ)言生成模型. . . . . . . . . . . . . . . . . 93
5.1 自編碼器. . . . . . . . . . . . . . . . . . . . . . 93
5.2 變分自編碼器. . . . . . . . . . . . . . . . . 94
5.3 條件變分自編碼器. . . . . . . . . . . . . 98
5.4 解碼器設(shè)計(jì). . . . . . . . . . . . . . . . . . 100
5.5 變分自編碼器在語(yǔ)言生成
任務(wù)上的應(yīng)用實(shí)例. . . . . . . . . . . .102
5.5.1 含類別約束的條件變分自編碼器模型. . . . . . . . . . . . . 102
5.5.2 含隱變量序列的條件變分自編碼器模型. . . . . . . . . . . . . 104
5.6 主要問(wèn)題及解決方案. . . . . . . . . 107
5.6.1 隱變量消失. . . . . . . . . . . . . . .107
5.6.2 可解釋性增強(qiáng). . . . . . . . . . . . .109
5.7 本章小結(jié). . . . . . . . . . . . . . . . . . . . . 111
第6 章基于生成式對(duì)抗網(wǎng)絡(luò)的語(yǔ)言生成模型. . . . . . . . . . . . . . . . 113
6.1 生成式對(duì)抗網(wǎng)絡(luò)的背景. . . . . . . 113
6.2 生成式對(duì)抗網(wǎng)絡(luò)的基本原理. . .115
6.3 生成式對(duì)抗網(wǎng)絡(luò)的基本結(jié)構(gòu). . .118
6.4 生成式對(duì)抗網(wǎng)絡(luò)的優(yōu)化問(wèn)題. . .120
6.4.1 使用強(qiáng)化學(xué)訓(xùn)練生成式對(duì)抗網(wǎng)絡(luò). . . . . . . . . . . . . . . . .120
6.4.2 使似方法訓(xùn)練生成式對(duì)抗網(wǎng)絡(luò). . . . . . . . . . . . . . . . .123
6.5 生成式對(duì)抗模型在文本與圖像中的區(qū)別. . . . . . . . . . . . . . . . 126
6.6 生成式對(duì)抗網(wǎng)絡(luò)的應(yīng)用. . . . . . . 128
6.6.1 對(duì)話生成. . . . . . . . . . . . . . . . .128
6.6.2 無(wú)監(jiān)督的風(fēng)格遷移. . . . . . . . . 129
6.7 本章小結(jié). . . . . . . . . . . . . . . . . . . . . 130
第7 章非自回歸語(yǔ)言生成. . . . . . . . . . . 131
7.1 基本原理. . . . . . . . . . . . . . . . . . . . . 131
7.1.1 適用場(chǎng)景的問(wèn)題定義. . . . . . . 131
7.1.2 自回歸模型和非自回歸模型. . . . . . . . . . . . . . . . . . . . 132
7.1.3 模型結(jié)構(gòu). . . . . . . . . . . . . . . . .132
7.2 非自回歸模型的挑戰(zhàn). . . . . . . . . 136
7.2.1 一對(duì)多問(wèn)題. . . . . . . . . . . . . . .136
7.2.2 內(nèi)部依賴問(wèn)題. . . . . . . . . . . . .137
7.3 非自回歸模型的. . . . . . . . . 138
7.3.1 網(wǎng)絡(luò)結(jié)構(gòu)的. . . . . . . . . . . 138
7.3.2 模型理論的. . . . . . . . . . . 139
7.3.3 后法. . . . . . . . . . . . .142
7.3.4 半自回歸方法. . . . . . . . . . . . .143
7.4 應(yīng)用與拓展. . . . . . . . . . . . . . . . . . 144
7.5 本章小結(jié). . . . . . . . . . . . . . . . . . . . . 145
第8 章融合規(guī)劃的自然語(yǔ)言生成. . . . .146
8.1 數(shù)據(jù)到文本生成任務(wù)中的規(guī)劃. . . . . . . . . . . . . . . . . . . . . . . . . 147
8.1.1 數(shù)據(jù)到文本生成任務(wù)的定義. . . . . . . . . . . . . . . . . . . . 147
8.1.2 傳統(tǒng)的模塊化方法. . . . . . . . . 149
8.1.3 神經(jīng)網(wǎng)絡(luò)方法. . . . . . . . . . . . .150
8.2 故事生成任務(wù)中的規(guī)劃. . . . . . . 158
8.2.1 故事生成任務(wù)的定義. . . . . . . 158
8.2.2 傳統(tǒng)方法. . . . . . . . . . . . . . . . .159
8.2.3 神經(jīng)網(wǎng)絡(luò)方法. . . . . . . . . . . . .160
8.3 本章小結(jié). . . . . . . . . . . . . . . . . . . . . 163
第9 章融合知識(shí)的自然語(yǔ)言生成. . . . .164
9.1 引入知識(shí)的動(dòng)機(jī). . . . . . . . . . . . . . 164
9.2 引入知識(shí)面臨的挑戰(zhàn). . . . . . . . . 165
9.3 知識(shí)的編碼與表示. . . . . . . . . . . .166
9.3.1 結(jié)構(gòu)化知識(shí)表示. . . . . . . . . . . 167
9.3.2 非結(jié)構(gòu)化知識(shí)表示. . . . . . . . . 170
9.4 融合知識(shí)的解碼方法. . . . . . . . . 172
9.4.1 拷貝網(wǎng)絡(luò). . . . . . . . . . . . . . . . .172
9.4.2 生成式預(yù)訓(xùn)練. . . . . . . . . . . . .174
9.5 應(yīng)用實(shí)例. . . . . . . . . . . . . . . . . . . . . 175
9.5.1 基于多跳常識(shí)推理的語(yǔ)言生成. . . . . . . . . . . . . . . . .175
9.5.2 故事生成. . . . . . . . . . . . . . . . .180
9.6 發(fā)展趨勢(shì). . . . . . . . . . . . . . . . . . . . . 185
9.6.1 語(yǔ)言模型與知識(shí)的融合. . . . . 185
9.6.2 預(yù)訓(xùn)練模型與知識(shí)的融合. . . 186
9.7 本章小結(jié). . . . . . . . . . . . . . . . . . . . . 189
第10 章常見(jiàn)的自然語(yǔ)言生成任務(wù)和數(shù)據(jù)資源. . . . . . . . . . . . . . . . . . . 190
10.1 機(jī)器翻譯. . . . . . . . . . . . . . . . . . . .190
10.1.1 常規(guī)機(jī)器翻譯. . . . . . . . . . . .190
10.1.2 低資源機(jī)器翻譯. . . . . . . . . . 191
10.1.3 無(wú)監(jiān)督機(jī)器翻譯. . . . . . . . . . 192
10.2 生成式文本摘要. . . . . . . . . . . . . 192
10.2.1 短文本摘要. . . . . . . . . . . . . .192
10.2.2 長(zhǎng)文本摘要. . . . . . . . . . . . . .193
10.2.3 多文檔摘要. . . . . . . . . . . . . .193
10.2.4 跨語(yǔ)言文本摘要. . . . . . . . . . 193
10.2.5 對(duì)話摘要. . . . . . . . . . . . . . . .194
10.2.6 細(xì)粒度文本摘要. . . . . . . . . . 195
10.3 意義到文本生成. . . . . . . . . . . . . 195
10.3.1 抽象語(yǔ)義表示到文本生成. . . . . . . . . . . . . . . .195
10.3.2 邏輯表達(dá)式到文本生成. . . . 197
10.4 數(shù)據(jù)到文本生成. . . . . . . . . . . . . 197
10.5 故事生成. . . . . . . . . . . . . . . . . . . .200
10.5.1 條件故事生成. . . . . . . . . . . .200
10.5.2 故事結(jié)局生成. . . . . . . . . . . .201
10.5.3 故事補(bǔ)全. . . . . . . . . . . . . . . .202
10.5.4 反事實(shí)故事生成. . . . . . . . . . 202
10.6 對(duì)話生成. . . . . . . . . . . . . . . . . . . .203
10.6.1 常規(guī)對(duì)話生成. . . . . . . . . . . .203
10.6.2 知識(shí)導(dǎo)引的對(duì)話生成. . . . . . 204
10.6.3 個(gè)性化對(duì)話生成. . . . . . . . . . 206
10.6.4 情感對(duì)話生成. . . . . . . . . . . .207
10.7 多模態(tài)語(yǔ)言生成. . . . . . . . . . . . . 208
10.7.1 圖像描述生成. . . . . . . . . . . .208
10.7.2 描述生成. . . . . . . . . . . .208
10.7.3 視覺(jué)故事生成. . . . . . . . . . . .210
10.7.4 視覺(jué)對(duì)話. . . . . . . . . . . . . . . .210
10.8 無(wú)約束語(yǔ)言生成. . . . . . . . . . . . . 211
10.9 本章小結(jié). . . . . . . . . . . . . . . . . . . .213
第11 章自然語(yǔ)言生成的評(píng)價(jià)方法. . . 214
11.1 語(yǔ)言生成評(píng)價(jià)的角度. . . . . . . . 215
11.2 人工評(píng)價(jià). . . . . . . . . . . . . . . . . . . .216
11.2.1 人工評(píng)價(jià)的分類. . . . . . . . . . 216
11.2.2 標(biāo)注一致性. . . . . . . . . . . . . .217
11.2.3 人工評(píng)價(jià)的問(wèn)題與挑戰(zhàn). . . . 219
11.3 自動(dòng)評(píng)價(jià). . . . . . . . . . . . . . . . . . . .220
11.3.1 無(wú)需學(xué)動(dòng)評(píng)價(jià)方法. . . . . . . . . . . . . . . .222
11.3.2 可學(xué)動(dòng)評(píng)價(jià)方法. . . . 228
11.4 自動(dòng)評(píng)價(jià)與人工評(píng)價(jià)的結(jié)合. . . . . . . . . . . . . . . . . . . . . . . . 236
11.5 自動(dòng)評(píng)價(jià)與人工評(píng)價(jià)的統(tǒng)計(jì)相關(guān)性. . . . . . . . . . . . . . . . . 238
11.5.1 Pearson 相關(guān)系數(shù). . . . . . . . 238
11.5.2 Spearman 相關(guān)系數(shù). . . . . . 239
11.5.3 Kendall 相關(guān)系數(shù). . . . . . . . 239
11.5.4 相關(guān)系數(shù)的顯著性. . . . . . . . 240
11.6 本章小結(jié). . . . . . . . . . . . . . . . . . . .240
第12 章自然語(yǔ)言生成的趨勢(shì)展望. . . 242
12.1 現(xiàn)狀分析. . . . . . . . . . . . . . . . . . . .242
12.2 趨勢(shì)展望. . . . . . . . . . . . . . . . . . . .245
參考文獻(xiàn). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 249