統(tǒng)計語言建模與中文文本自動校對技術(shù)
本書是作者多年來在自然語言處理領(lǐng)域開展對統(tǒng)計語言建模以及中文文本校對技術(shù)研究的總結(jié)。
主要內(nèi)容包括統(tǒng)計語言建模和中文文本自動校對技術(shù)兩部分內(nèi)容,共12章。前面部分介紹統(tǒng)計語言模型構(gòu)建的基本原理與方法,并對模型訓(xùn)練及評價方法進(jìn)行研究,提出統(tǒng)計語言模型建模時訓(xùn)練語料規(guī)模的定量化度量方法。后面部分概述中文文本中常見的各種錯誤,并針對這些錯誤類型提出字詞級、句法級和語義級錯誤的自動偵測方法與模型,開創(chuàng)了漢語文本語義錯誤自動偵測的新思路,提出了中文文本錯誤的糾錯建議生成與排序模型。*后基于所提出的模型與算法開發(fā)了一個"正文通"中文文本校對系統(tǒng)。
本書可作為在自然語言處理領(lǐng)域開展中文文本自動校對技術(shù)與方法研究的相關(guān)人員的參考用書。
更多科學(xué)出版社服務(wù),請掃碼獲取。
導(dǎo)語_點評_推薦詞
序言
目錄
第一章 緒論 1
1.1 撰寫本書的背景和意義 1
1.2 本書的主要內(nèi)容與組織結(jié)構(gòu) 3
1.3 本書重點關(guān)注的問題 4
第二章 統(tǒng)計語言模型 7
2.1 語言模型概述 7
2.2 現(xiàn)有主要統(tǒng)計語言模型 7
2.2.1 上下文無關(guān)模型 7
2.2.2 n-gram 模型 8
2.2.3 隱Markov 模型 11
2.2.4 決策樹模型 18
2.2.5 Cache-based 模型 18
2.3 統(tǒng)計語言模型的建模技術(shù) 19
2.3.1 基于最大似然法的語言建模 19
2.3.2 基于組合思想的語言建模 21
2.3.3 基于信息論最大熵方法的語言建模 23
2.4 統(tǒng)計語言建模的相關(guān)問題 24
2.4.1 語言模型的架構(gòu) 24
2.4.2 語言模型參數(shù)的確定 24
2.4.3 數(shù)據(jù)稀疏問題與模型平滑 25
2.4.4 語言模型的評價 26
2.5 本章小結(jié) 26
第三章 漢語統(tǒng)計語言模型的構(gòu)建 27
3.1 漢語統(tǒng)計語言模型構(gòu)建概述 27
3.2 漢語文本分詞及其相關(guān)問題 27
3.2.1 機(jī)讀詞典的建立 27
3.2.2 漢語文本分詞算法 28
3.2.3 分詞中的中國人名識別 31
3.2.4 實驗結(jié)果與分析 37
3.3 漢語建模原理與文本統(tǒng)計系統(tǒng)的建立 39
3.3.1 漢語n-gram 模型的構(gòu)建原理 39
3.3.2 文本統(tǒng)計系統(tǒng)的組成及實現(xiàn) 39
3.3.3 字詞統(tǒng)計算法與程序 40
3.4 幾種漢語語言模型與實驗結(jié)果 41
3.5 本章小結(jié) 42
第四章 漢語統(tǒng)計語言模型的訓(xùn)練與評價 43
4.1 語言模型訓(xùn)練樣本的選取 43
4.2 漢語語言模型訓(xùn)練樣本的規(guī)模 43
4.2.1 語言模型階數(shù)與訓(xùn)練樣本規(guī)模 43
4.2.2 漢語語言模型的訓(xùn)練語料規(guī)模 45
4.2.3 樣本規(guī)模與詞的使用頻率和統(tǒng)計相對誤差關(guān)系 48
4.3 統(tǒng)計語言模型的評價 50
4.3.1 基于信息熵的復(fù)雜度度量 50
4.3.2 基于困惑度的復(fù)雜度度量 54
4.4 漢語信息熵的估算方法 55
4.4.1 語言信息熵的估算 55
4.4.2 對幾種漢語語言模型的比較與評價 55
4.5 本章小結(jié) 56
第五章 文本校對技術(shù)的現(xiàn)狀分析 57
5.1 英文文本自動校對技術(shù) 57
5.1.1 英文文本中的錯誤種類 57
5.1.2 單詞錯誤的發(fā)現(xiàn)與校對技術(shù) 57
5.1.3 上下文相關(guān)的錯誤校對技術(shù) 59
5.2 中文文本自動校對技術(shù) 61
5.2.1 中文與英文的差別 61
5.2.2 中文自動查錯的研究現(xiàn)狀 61
5.2.3 中文自動糾錯的研究現(xiàn)狀 64
5.3 中文文本中常見錯誤的類型與分析 64
5.3.1 中文文本中的常見錯誤類型 64
5.3.2 中文文本中常見錯誤統(tǒng)計分析 66
5.3.3 中文文本自動校對的難點分析 67
5.4 本章小結(jié) 68
第六章 中文文本字詞錯誤自動偵測的模型與算法 69
6.1 中文文本字詞級錯誤的表現(xiàn)形式 69
6.2 基于n-gram 模型的中文文本查錯方法 70
6.2.1 n-gram 模型與接續(xù)關(guān)系 70
6.2.2 基于接續(xù)關(guān)系的查錯思想 71
6.2.3 字字接續(xù)判斷模型 71
6.2.4 詞接續(xù)判斷模型 73
6.2.5 接續(xù)關(guān)系知識獲取與知識庫構(gòu)建 74
6.3 基于字詞二元接續(xù)關(guān)系的自動查錯算法 75
6.3.1 基于字詞二元接續(xù)的自動查錯算法 75
6.3.2 實驗結(jié)果及查錯實例 76
6.4 規(guī)則與統(tǒng)計相結(jié)合的文本自動查錯模型 79
6.4.1 中文文本中的“非多字詞錯誤”與“真多字詞錯誤” 79
6.4.2 規(guī)則與統(tǒng)計相結(jié)合的中文文本自動查錯模型 80
6.5 散串集中策略 84
6.5.1 雙向拼音知識庫的構(gòu)建 84
6.5.2 散串集中策略 84
6.5.3 錯誤信息存儲方法 85
6.5.4 散串集中算法 86
6.5.5 實驗結(jié)果與分析 86
6.6 一種英文單詞拼寫自動偵錯與糾錯的方法—骨架鍵法 88
6.6.1 英文拼寫自動偵錯和糾錯的一般方法 88
6.6.2 骨架鍵法在英文偵錯與糾錯中的可行性分析 88
6.6.3 骨架鍵法的算法描述和算法分析 89
6.6.4 實驗結(jié)果評價 90
6.7 本章小結(jié) 90
第七章 中文文本中語法錯誤的自動偵測模型與算法 92
7.1 中文文本語法級錯誤概述 92
7.2 關(guān)聯(lián)詞知識庫構(gòu)建及查錯算法 93
7.2.1 關(guān)聯(lián)詞搭配錯誤推理規(guī)則知識庫的構(gòu)建 93
7.2.2 關(guān)聯(lián)詞搭配查錯算法 94
7.3 量名搭配知識庫的構(gòu)建及查錯算法設(shè)計 95
7.3.1 基于《語法詞典》的量名搭配 95
7.3.2 基于語料庫的量名搭配 96
7.3.3 量名搭配類庫的構(gòu)建 97
7.3.4 量名搭配查錯算法 98
7.4 標(biāo)點符號錯誤的自動偵測 99
7.4.1 標(biāo)點符號搭配錯誤的研究 99
7.4.2 標(biāo)點符號錯誤搭配規(guī)則及算法設(shè)計 100
vi 統(tǒng)計語言建模與中文文本自動校對技術(shù)
7.5 基于規(guī)則的語法錯誤推理規(guī)則的構(gòu)建 101
7.5.1 語法錯誤推理正規(guī)則庫構(gòu)建 101
7.5.2 語法錯誤推理負(fù)規(guī)則庫制定 104
7.5.3 基于語法錯誤推理規(guī)則的語法級錯誤查錯算法 105
7.6 本章小結(jié) 106
第八章 中文文本中語義錯誤自動偵測的模型與算法 107
8.1 語義學(xué)相關(guān)理論 107
8.1.1 現(xiàn)代語義學(xué)流派及其主要理論 107
8.1.2 語義知識的表示方法 111
8.1.3 語義知識資源 113
8.2 基于語義搭配知識庫的語義偵測算法 117
8.2.1 語義搭配知識庫體系結(jié)構(gòu)的設(shè)計 117
8.2.2 詞語搭配自動抽取算法的設(shè)計與實現(xiàn) 119
8.2.3 語義搭配知識庫構(gòu)建算法的設(shè)計及實現(xiàn) 124
8.2.4 基于語義搭配知識庫的語義偵測算法的設(shè)計及實現(xiàn) 127
8.3 基于語義依存搭配知識庫的語義查錯方法 128
8.3.1 依存樹庫的構(gòu)建及搭配關(guān)系的提取 128
8.3.2 基于語義依存搭配知識庫的語義級查錯方法 132
8.4 本章小結(jié) 134
第九章 面向?qū)I(yè)領(lǐng)域的中文文本錯誤的自動偵測方法 135
9.1 面向特定領(lǐng)域的專業(yè)詞匯抽取方法概述 135
9.1.1 國外研究現(xiàn)狀分析 135
9.1.2 國內(nèi)研究現(xiàn)狀分析 136
9.2 專業(yè)領(lǐng)域詞匯及搭配關(guān)系的相關(guān)概念和理論知識 138
9.2.1 專業(yè)詞匯的定義 139
9.2.2 專業(yè)詞匯的分類 139
9.2.3 專業(yè)詞匯的特性 140
9.2.4 專業(yè)詞語搭配關(guān)系的定義 141
9.2.5 通用的統(tǒng)計方法 141
9.3 基于統(tǒng)計與規(guī)則相結(jié)合的專業(yè)詞匯抽取算法 145
9.3.1 專業(yè)詞匯抽取算法的流程 145
9.3.2 基于左右信息熵擴(kuò)展的候選專業(yè)詞匯抽取 148
9.3.3 基于成詞度的專業(yè)詞匯篩選 151
9.3.4 基于TF-IDF 領(lǐng)域度的專業(yè)詞匯篩選 154
9.3.5 基于通用詞庫的篩選 156
9.4 基于特定領(lǐng)域的詞語搭配挖掘算法 156
9.4.1 基于統(tǒng)計的常用詞語搭配關(guān)系挖掘 157
9.4.2 基于依存句法分析和《同義詞詞林》的動賓搭配關(guān)系挖掘 161
9.4.3 基于依存分析結(jié)果的動賓搭配關(guān)系挖掘 169
9.5 專業(yè)詞匯與搭配關(guān)系分析挖掘系統(tǒng)的設(shè)計與實現(xiàn) 174
9.5.1 系統(tǒng)的框架設(shè)計 174
9.5.2 系統(tǒng)的主要用途和技術(shù)特點 175
9.5.3 系統(tǒng)各功能模塊簡介 175
9.5.4 實驗結(jié)果與分析 181
9.6 專業(yè)詞匯與搭配關(guān)系在中文文本自動校對中的應(yīng)用 187
9.6.1 專業(yè)詞匯在中文文本自動校對中的應(yīng)用 187
9.6.2 詞語搭配關(guān)系在中文文本自動校對中的應(yīng)用 189
9.7 本章小結(jié) 192
第十章 面向政治新聞領(lǐng)域的中文文本校對方法 194
10.1 面向政治新聞領(lǐng)域的中文文本校對方法概述 194
10.2 新聞領(lǐng)域文本政治性錯誤類型 194
10.3 面向政治新聞校對的相關(guān)知識庫構(gòu)建 195
10.3.1 涉及主權(quán)、領(lǐng)土完整及港澳臺問題的“引號詞”QTLIB 庫的構(gòu)建 196
10.3.2 領(lǐng)導(dǎo)人順序和姓名-職務(wù)知識庫的構(gòu)建 197
10.4 面向政治新聞領(lǐng)域的差錯偵測算法與實現(xiàn) 198
10.4.1 政治性差錯偵測規(guī)則庫構(gòu)建 198
10.4.2 面向政治新聞領(lǐng)域的文本分詞優(yōu)化 199
10.4.3 政治性差錯偵測模型 200
10.4.4 面向政治領(lǐng)域的文本校對方法的具體實現(xiàn) 201
10.5 實驗結(jié)果分析 202
10.5.1 測試集的構(gòu)建 202
10.5.2 結(jié)果分析 203
第十一章 中文文本錯誤糾錯建議的自動生成及其排序方法 204
11.1 中文文本字詞級錯誤糾錯建議自動生成及其排序的模型與算法 204
11.1.1 中文文本字詞級錯誤糾錯建議自動生成及其排序概述 204
11.1.2 自動糾錯的語言模型 204
11.1.3 糾錯知識庫的構(gòu)造 205
11.1.4 糾錯建議的生成算法 213
11.1.5 語境關(guān)聯(lián)度模型 215
11.1.6 基于語境關(guān)聯(lián)度模型的糾錯建議排序 218
11.1.7 實驗結(jié)果與實例 219
11.2 基于最大熵方法的語言建模與糾錯排歧 221
11.2.1 問題的引入 221
11.2.2 最大熵原理 222
11.2.3 基于最大熵原理的自然語言建模 223
11.2.4 基于頻次與平均互信息相結(jié)合的特征選擇 228
11.2.5 基于最大熵方法的糾錯排歧 231
11.3 本章小結(jié) 235
第十二章 面向中文文本的自動校對實驗系統(tǒng)設(shè)計與實現(xiàn) 236
12.1 系統(tǒng)目標(biāo) 236
12.2 系統(tǒng)結(jié)構(gòu)設(shè)計 236
12.3 系統(tǒng)的實現(xiàn) 238
12.3.1 開發(fā)環(huán)境 238
12.3.2 知識獲取模塊的實現(xiàn) 239
12.3.3 分詞模塊的實現(xiàn) 239
12.3.4 查錯模塊的實現(xiàn) 240
12.3.5 糾錯模塊的實現(xiàn) 241
12.4 系統(tǒng)評測 243
12.4.1 評測目的和評測性能指標(biāo) 243
12.4.2 標(biāo)準(zhǔn)評測庫的建立和評測方法 244
12.5 本章小結(jié) 245
附錄:漢語語料加工詞性標(biāo)記體系 246
參考文獻(xiàn) 247