數(shù)據(jù)驅(qū)動(dòng)的機(jī)器翻譯技術(shù)
定 價(jià):108 元
叢書名:前沿科技·人工智能系列
- 作者:黃河燕主編
- 出版時(shí)間:2024/7/1
- ISBN:9787121483073
- 出 版 社:電子工業(yè)出版社
- 中圖法分類:TP391.2
- 頁碼:298頁
- 紙張:
- 版次:1
- 開本:24cm
機(jī)器翻譯(MachineTranslation,MT)是指利用計(jì)算機(jī)實(shí)現(xiàn)從一種自然語言(稱為源語言)到另一種自然語言(稱為目標(biāo)語言)的自動(dòng)翻譯的過程和技術(shù),是人工智能(ArtificialIntelligence,AI)和自然語言處理(NaturalLanguageProcessing,NLP)領(lǐng)域的重要應(yīng)用和熱點(diǎn)問題之一。本書從數(shù)據(jù)驅(qū)動(dòng)的機(jī)器翻譯角度介紹了統(tǒng)計(jì)機(jī)器翻譯和神經(jīng)機(jī)器翻譯的基本模型和技術(shù),機(jī)器翻譯的評(píng)價(jià)方法及領(lǐng)域內(nèi)相關(guān)會(huì)議。在此基礎(chǔ)上,首先梳理了句法、語義等語言學(xué)知識(shí)在數(shù)據(jù)驅(qū)動(dòng)機(jī)器翻譯中的應(yīng)用,包含了統(tǒng)計(jì)機(jī)器翻譯、神經(jīng)機(jī)器翻譯及句法知識(shí)與神經(jīng)機(jī)器翻譯的聯(lián)合學(xué)習(xí)模型。接下來,介紹了其他語言學(xué)知識(shí)在數(shù)據(jù)驅(qū)動(dòng)機(jī)器翻譯中的應(yīng)用,如句對(duì)齊、翻譯記憶、詞形等。此外還介紹了數(shù)據(jù)驅(qū)動(dòng)機(jī)器翻譯中常見的的零代詞問題以及多語言訓(xùn)練問題。最后,本書對(duì)數(shù)據(jù)驅(qū)動(dòng)的機(jī)器翻譯研究?jī)?nèi)容進(jìn)行了總結(jié),并展望未來研究方向。
第1章 緒論 1
1.1 研究背景及意義 1
1.2 機(jī)器翻譯發(fā)展簡(jiǎn)史 2
1.3 研究?jī)?nèi)容及全書總覽 4
參考文獻(xiàn) 8
第2章 基礎(chǔ)理論 9
2.1 基于規(guī)則的機(jī)器翻譯 9
2.2 基于實(shí)例的機(jī)器翻譯 10
2.3 統(tǒng)計(jì)機(jī)器翻譯 11
2.3.1 噪聲信道模型 11
2.3.2 對(duì)數(shù)線性模型 12
2.3.3 基于短語的統(tǒng)計(jì)機(jī)器翻譯模型 12
2.3.4 基于句法的統(tǒng)計(jì)機(jī)器翻譯模型 14
2.3.5 語言模型 16
2.3.6 統(tǒng)計(jì)機(jī)器翻譯存在的問題 20
2.4 神經(jīng)機(jī)器翻譯 20
2.4.1 基于循環(huán)神經(jīng)網(wǎng)絡(luò)的神經(jīng)機(jī)器翻譯模型 21
2.4.2 基于卷積神經(jīng)網(wǎng)絡(luò)的神經(jīng)機(jī)器翻譯模型 24
2.4.3 基于注意力網(wǎng)絡(luò)的神經(jīng)機(jī)器翻譯模型 27
2.4.4 束搜索 30
2.4.5 神經(jīng)機(jī)器翻譯存在的問題及發(fā)展趨勢(shì) 31
參考文獻(xiàn) 34
第3章 基于句法語義知識(shí)的統(tǒng)計(jì)機(jī)器翻譯 44
3.1 引言 44
3.2 基于句法和語義的統(tǒng)計(jì)機(jī)器翻譯基礎(chǔ)方法 45
3.2.1 基于句法的統(tǒng)計(jì)機(jī)器翻譯模型 46
3.2.2 語義角色標(biāo)注 47
3.2.3 語義角色標(biāo)注在統(tǒng)計(jì)機(jī)器翻譯中的應(yīng)用 48
3.2.4 串到樹模型 49
3.3 基于淺層語義結(jié)構(gòu)的統(tǒng)計(jì)機(jī)器翻譯 52
3.3.1 謂詞-論元增強(qiáng)型句法樹 52
3.3.2 句法補(bǔ)充的謂詞-論元樹 54
3.3.3 翻譯規(guī)則的學(xué)習(xí) 55
3.3.4 實(shí)驗(yàn)與分析 56
3.4 基于句法語言模型的統(tǒng)計(jì)機(jī)器翻譯 62
3.4.1 句法語言建模的基礎(chǔ)方法 62
3.4.2 融合淺層句法特征的循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型 63
3.5 本章小結(jié) 70
參考文獻(xiàn) 71
第4章 句法知識(shí)與神經(jīng)機(jī)器翻譯聯(lián)合學(xué)習(xí)模型 82
4.1 引言 82
4.2 樹結(jié)構(gòu)學(xué)習(xí)的基礎(chǔ)方法 83
4.2.1 樹結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)編碼器 84
4.2.2 樹結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)解碼器 85
4.2.3 無監(jiān)督樹學(xué)習(xí) 85
4.2.4 利用統(tǒng)計(jì)機(jī)器翻譯短語表 87
4.2.5 在神經(jīng)機(jī)器翻譯中學(xué)習(xí)短語 87
4.2.6 基于句法的神經(jīng)機(jī)器翻譯 88
4.2.7 對(duì)齊學(xué)習(xí) 89
4.3 源端句法信息與神經(jīng)機(jī)器翻譯聯(lián)合學(xué)習(xí)模型 89
4.3.1 無監(jiān)督樹編碼器 90
4.3.2 無監(jiān)督樹與神經(jīng)機(jī)器翻譯聯(lián)合學(xué)習(xí) 92
4.3.3 實(shí)驗(yàn)分析 97
4.3.4 實(shí)例分析 101
4.4 雙語句法成分對(duì)齊與神經(jīng)機(jī)器翻譯聯(lián)合學(xué)習(xí)模型 105
4.4.1 概述 105
4.4.2 無監(jiān)督樹編碼器 107
4.4.3 對(duì)齊樣本構(gòu)建 107
4.4.4 深度度量損失 108
4.4.5 實(shí)驗(yàn)分析 109
4.5 基于跨語言句法互信息的機(jī)器翻譯 114
4.5.1 概述 114
4.5.2 雙語句法對(duì)齊 117
4.5.3 最大化雙語句法相互依存 120
4.5.4 實(shí)驗(yàn)分析 121
4.6 本章小結(jié) 126
參考文獻(xiàn) 126
第5章 基于句子對(duì)齊信息的機(jī)器翻譯訓(xùn)練 138
5.1 引言 138
5.2 問題分析 141
5.3 基于自注意力機(jī)制的對(duì)齊判別器 143
5.3.1 基于門控自注意力網(wǎng)絡(luò)的句子編碼器 144
5.3.2 句子對(duì)齊得分計(jì)算與判別器損失函數(shù) 145
5.3.3 判別器訓(xùn)練數(shù)據(jù)構(gòu)建與預(yù)訓(xùn)練 146
5.4 基于對(duì)齊信息的神經(jīng)機(jī)器翻譯對(duì)抗訓(xùn)練 147
5.4.1 判別損失函數(shù) 147
5.4.2 Gumbel-Softmax 采樣 148
5.4.3 教師強(qiáng)制步驟 149
5.4.4 固定的判別器與對(duì)抗的判別器 149
5.5 基于對(duì)齊感知的神經(jīng)機(jī)器翻譯解碼方法 150
5.5.1 融合判別器得分的解碼得分 151
5.5.2 融合基于對(duì)齊的價(jià)值網(wǎng)絡(luò)解碼 151
5.6 本章小結(jié) 152
參考文獻(xiàn) 157
第6章 融合翻譯記憶的神經(jīng)機(jī)器翻譯方法 163
6.1 引言 163
6.2 問題分析 163
6.3 融合翻譯記憶相似度的文本預(yù)處理方法 165
6.3.1 模板 165
6.3.2 相關(guān)工作 166
6.3.3 基于多維相似度的機(jī)器翻譯測(cè)試集預(yù)處理策略 167
6.4 融合翻譯記憶的機(jī)器翻譯訓(xùn)練方法 170
6.4.1 引言 170
6.4.2 相關(guān)工作 171
6.4.3 基于多維相似度的機(jī)器翻譯訓(xùn)練方法 172
6.4.4 實(shí)驗(yàn)分析 174
6.5 融合模板翻譯記憶的神經(jīng)機(jī)器翻譯方法 178
6.5.1 概述 178
6.5.2 相關(guān)工作 179
6.5.3 翻譯模板的定義與構(gòu)建 180
6.5.4 融合模板翻譯記憶的神經(jīng)機(jī)器翻譯 187
6.5.5 實(shí)驗(yàn)分析 191
6.6 本章小結(jié) 197
參考文獻(xiàn) 198
第7章 詞形預(yù)測(cè)與神經(jīng)機(jī)器翻譯聯(lián)合模型 202
7.1 引言 202
7.2 問題分析 204
7.2.1 拉丁字符大小寫對(duì)神經(jīng)機(jī)器翻譯的影響 204
7.2.2 單詞陰陽性對(duì)機(jī)器翻譯的影響 206
7.3 大小寫敏感的神經(jīng)機(jī)器翻譯 207
7.3.1 神經(jīng)機(jī)器翻譯模型 207
7.3.2 引入大寫標(biāo)注的神經(jīng)機(jī)器翻譯 208
7.3.3 神經(jīng)機(jī)器翻譯與大寫預(yù)測(cè)聯(lián)合學(xué)習(xí) 209
7.4 性別敏感的神經(jīng)機(jī)器翻譯 212
7.4.1 性別平衡偽數(shù)據(jù)構(gòu)建方法 213
7.4.2 插入性別標(biāo)注 214
7.4.3 性別預(yù)測(cè)與機(jī)器翻譯聯(lián)合建模 214
7.5 本章小結(jié) 215
參考文獻(xiàn) 218
第8章 融合零代詞信息的機(jī)器翻譯方法 225
8.1 引言 225
8.2 零代詞推斷的基礎(chǔ)方法 227
8.2.1 基于規(guī)則的方法 227
8.2.2 序列標(biāo)注法 228
8.2.3 融入語義特征的方法 229
8.3 基于特征的零代詞推斷方法 232
8.3.1 融入雙語信息的語料重構(gòu) 232
8.3.2 零代詞處理方法 235
8.4 基于CRF和SVM的零代詞信息構(gòu)建方法 236
8.4.1 基于CRF的零代詞位置標(biāo)注 236
8.4.2 基于SVM的零代詞分類 238
8.5 基于深度學(xué)習(xí)的零代詞信息構(gòu)建方法 242
8.5.1 基于LSTM的零代詞位置標(biāo)注 243
8.5.2 基于LSTM的零代詞分類 245
8.5.3 基于編碼器-解碼器架構(gòu)的零代詞重構(gòu)模型 245
8.6 融合零代詞信息的統(tǒng)計(jì)機(jī)器翻譯 247
8.6.1 概述 247
8.6.2 語料預(yù)處理方法 247
8.6.3 概率特征方法 248
8.6.4 譯文重排序方法 250
8.6.5 實(shí)驗(yàn)分析 251
8.6.6 實(shí)驗(yàn)結(jié)果及分析 254
8.7 基于無監(jiān)督樹學(xué)習(xí)和零代詞重構(gòu)的神經(jīng)機(jī)器翻譯 258
8.7.1 概述 258
8.7.2 基于零代詞重構(gòu)的口語機(jī)器翻譯模型 259
8.7.3 實(shí)驗(yàn)及分析 263
8.8 本章小結(jié) 271
參考文獻(xiàn) 271
第9章 基于因果推斷的譯文評(píng)分去噪聲方法 274
9.1 引言 274
9.2 相關(guān)工作和背景知識(shí) 278
9.2.1 NMT譯文長(zhǎng)度偏置問題 278
9.2.2 句子級(jí)譯文質(zhì)量直接估計(jì)任務(wù) 281
9.3 基于HSR的譯文評(píng)分降噪方法 283
9.3.1 基于HSR的NMT解碼長(zhǎng)度偏置修正 283
9.3.2 討論 285
9.3.3 譯文質(zhì)量估計(jì)系統(tǒng)輸出降噪方法 287
9.4 NMT長(zhǎng)度偏置消除實(shí)驗(yàn) 290
9.4.1 回歸模型的選擇 292
9.4.2 方法自適應(yīng)性 294
9.5 譯文質(zhì)量估計(jì)系統(tǒng)去噪聲實(shí)驗(yàn) 296
9.6 本章小結(jié) 299
參考文獻(xiàn) 299
第10章 機(jī)器翻譯評(píng)價(jià)及相關(guān)評(píng)測(cè)會(huì)議 306
10.1 機(jī)器翻譯評(píng)價(jià)指標(biāo) 307
10.1.1 準(zhǔn)確率和召回率 307
10.1.2 BLEU評(píng)價(jià)指標(biāo) 308
10.1.3 詞錯(cuò)誤率WER 308
10.1.4 翻譯編輯率TER 309
10.1.5 NIST評(píng)價(jià)指標(biāo) 309
10.1.6 METEOR評(píng)價(jià)指標(biāo) 310
10.2 機(jī)器翻譯大會(huì)WMT 310
10.3 全國(guó)機(jī)器翻譯大會(huì)CCMT 312
10.4 國(guó)際口語翻譯大會(huì)IWSLT 313
10.5 NIST機(jī)器翻譯公開評(píng)測(cè) 314
10.6 亞洲語言機(jī)器翻譯研討會(huì)WAT 315
參考文獻(xiàn) 316
第11章 總結(jié)與展望 319
11.1 本書總結(jié) 319
11.2 未來研究方向展望 320