自然語言結(jié)構(gòu)計(jì)算 GPF結(jié)構(gòu)分析框架
自然語言在語法、語義和語用三個(gè)平面上的結(jié)構(gòu)統(tǒng)稱為語言結(jié)構(gòu),通過計(jì)算得到語言結(jié)構(gòu)是自然語言理解的核心任務(wù)。語言結(jié)構(gòu)計(jì)算可以泛化為識(shí)別語言單元和建立語言單元之間的關(guān)系、為語言單元和關(guān)系賦予屬性的過程。本書利用網(wǎng)格結(jié)構(gòu)分析語言單元和關(guān)系,通過鍵值方式對(duì)其屬性進(jìn)行描述和計(jì)算,采用數(shù)據(jù)表解析不同類型的知識(shí),借助有限狀態(tài)自動(dòng)機(jī)剖析語言的具體應(yīng)用場(chǎng)景。這種基于網(wǎng)格的自然語言結(jié)構(gòu)分析框架(Grid based Parsing Framework,GPF)具有良好的包容性,通過可編程的腳本和數(shù)據(jù)交換標(biāo)準(zhǔn)接口,融合了深度學(xué)習(xí)的參數(shù)計(jì)算和基于符號(hào)的知識(shí)計(jì)算。GPF為自然語言處理研究和應(yīng)用提供了新的研究思路和計(jì)算框架。
本書適合專業(yè)為自然語言處理、計(jì)算語言學(xué)以及與語言學(xué)本體研究有關(guān)的學(xué)生當(dāng)作教材,也可以作為高等院校人工智能、信息科學(xué)研究、大數(shù)據(jù)分析等相關(guān)專業(yè)的參考書。同時(shí),本書也適合對(duì)語料庫建設(shè)與應(yīng)用感興趣的人員閱讀。
“自然語言結(jié)構(gòu)計(jì)算”系列圖書
語言| 技術(shù)| 算法| 融合 |創(chuàng)新
一、整體亮點(diǎn)
稀缺性:
本書的內(nèi)容覆蓋了基于知識(shí)的自然語言處理理論、技術(shù)和應(yīng)用。
專業(yè)性:
作者為國內(nèi)高等院校學(xué)者、北京語言大學(xué)信息科學(xué)學(xué)院院長(zhǎng)、語言智能研究院院長(zhǎng)。
實(shí)用性:
本書的GPF是一種靈活實(shí)用的可編程的語言分析框架,可用于自然語言處理方向的學(xué)習(xí)、研究和應(yīng)用。
原創(chuàng)性:
本書是作者30多年工作、科研、學(xué)習(xí)中的新思考與新實(shí)踐的智慧結(jié)晶。
二、內(nèi)容特色
1.知識(shí)性
本書涉及自然語言如何處理的技能,涵蓋了語義結(jié)構(gòu)分析多項(xiàng)新技術(shù)。
2.豐富性
本書系統(tǒng)地介紹了語言分析、構(gòu)建與使用的各個(gè)環(huán)節(jié)。
3.系統(tǒng)性
本書從如何語義分析入手,涉及了語義意合圖的理論建設(shè)與使用方法。
荀恩東
教授,博士生導(dǎo)師,博士畢業(yè)于哈爾濱工業(yè)大學(xué),先后在微軟亞洲研究院、香港科技大學(xué)工作,現(xiàn)任北京語言大學(xué)信息科學(xué)學(xué)院院長(zhǎng)、語言智能研究院院長(zhǎng)。
研究領(lǐng)域?yàn)樽匀徽Z言處理和語言教育技術(shù)。近年來,主持多項(xiàng)“國家高技術(shù)研究發(fā)展計(jì)劃”(簡(jiǎn)稱863計(jì)劃)、國家社會(huì)科學(xué)基金項(xiàng)目和國家自然科學(xué)基金項(xiàng)目,承擔(dān)多項(xiàng)公司合作的項(xiàng)目,發(fā)表文章70余篇。主要研究?jī)?nèi)容為漢語語義計(jì)算和語言教育技術(shù)。
主持開發(fā)了北京語言大學(xué)語料庫中心( BCC)語料庫和國際中文智慧教學(xué)平臺(tái)。提出了漢語語義分析的意合圖理論和構(gòu)建方法,帶領(lǐng)團(tuán)隊(duì)揭榜工信部人工智能重大攻關(guān)任務(wù),在包括專利等多個(gè)領(lǐng)域開展?jié)h語語義理解落地應(yīng)用工作。
目錄
第 1章 自然語言處理概述
1.1 自然語言處理 002
1.1.1 自然語言處理是認(rèn)知智能的核心 002
1.1.2 自然語言理解的本質(zhì)是語言結(jié)構(gòu)分析 003
1.1.3 自然語言理解的挑戰(zhàn) 005
1.2 語言結(jié)構(gòu) 007
1.2.1 語言結(jié)構(gòu)的基本單元 007
1.2.2 基本單元之間的關(guān)系 008
1.3 語言結(jié)構(gòu)分析 011
1.3.1 語言結(jié)構(gòu)的形式化 012
1.3.2 語言結(jié)構(gòu)分析的內(nèi)容 012
1.3.3 語言結(jié)構(gòu)分析知識(shí) 014
1.3.4 語言結(jié)構(gòu)分析策略 017
1.4 基于網(wǎng)格的自然語言結(jié)構(gòu)分析框架——GPF 020
1.4.1 GPF的設(shè)計(jì)思想 020
1.4.2 GPF的主要應(yīng)用 024
第 2章 GPF總體設(shè)計(jì)
2.1 GPF分析框架 028
2.1.1 GPF功能部件 029
2.1.2 GPF工作模式 034
2.1.3 GPF編程體系 035
2.2 GPF屬性計(jì)算 037
2.2.1 語言結(jié)構(gòu)的屬性 037
2.2.2 屬性的形式化及計(jì)算 038
2.2.3 屬性的應(yīng)用 043
第3章 GPF網(wǎng)格
3.1 概述 048
3.1.1 網(wǎng)格計(jì)算結(jié)構(gòu) 048
3.1.2 主要功能 049
3.1.3 網(wǎng)格的形式結(jié)構(gòu) 050
3.1.4 網(wǎng)格與屬性 051
3.2 網(wǎng)格單元 051
3.2.1 網(wǎng)格單元的類型 051
3.2.2 網(wǎng)格單元的屬性 052
3.3 網(wǎng)格單元之間的關(guān)系 060
3.3.1 網(wǎng)格單元之間關(guān)系的類型 061
3.3.2 網(wǎng)格單元之間關(guān)系的屬性 062
第4章 GPF網(wǎng)格計(jì)算
4.1 輸入輸出 064
4.1.1 輸入 064
4.1.2 輸出 066
4.2 網(wǎng)格單元計(jì)算 078
4.2.1 添加網(wǎng)格單元 078
4.2.2 獲取網(wǎng)格單元 089
4.3 網(wǎng)格單元屬性計(jì)算 095
4.3.1 添加網(wǎng)格單元屬性 095
4.3.2 獲取網(wǎng)格單元屬性 096
4.3.3 測(cè)試網(wǎng)格單元屬性 099
4.4 網(wǎng)格單元關(guān)系計(jì)算 101
4.4.1 增加網(wǎng)格單元關(guān)系 101
4.4.2 增加關(guān)系屬性 102
4.4.3 判斷關(guān)系屬性 103
第5章 GPF數(shù)據(jù)表
5.1 概述 109
5.1.1 格式定義 109
5.1.2 術(shù)語與定義 109
5.2 數(shù)據(jù)表類型 111
5.2.1 描述型數(shù)據(jù)表 111
5.2.2 關(guān)系型數(shù)據(jù)表 114
5.3 數(shù)據(jù)表相關(guān)的API函數(shù) 116
5.3.1 字符串操作(GetPrefix和GetSuffix) 116
5.3.2 創(chuàng)建單元(Segment) 119
5.3.3 構(gòu)建關(guān)系(Relate) 122
5.3.4 提供屬性(SetLexicon) 131
5.3.5 數(shù)據(jù)表測(cè)試函數(shù)(IsTable) 133
5.3.6 數(shù)據(jù)項(xiàng)獲取函數(shù)(GetTableItems) 134
5.3.7 數(shù)據(jù)項(xiàng)屬性獲取函數(shù)(GetTableItemKVs) 135
5.4 數(shù)據(jù)表在屬性計(jì)算中的應(yīng)用 137
5.4.1 數(shù)據(jù)表用于“鍵值對(duì)”中 137
5.4.2 數(shù)據(jù)表用于鍵值表達(dá)式中 139
第6章 GPF有限狀態(tài)自動(dòng)機(jī)
6.1 概述 142
6.1.1 形式化定義 142
6.1.2 主要功能 144
6.2 FSA文法 144
6.2.1 FSA腳本 144
6.2.2 FSA文法規(guī)定 146
6.2.3 文法編譯 149
6.3 FSA 運(yùn)行機(jī)制 150
6.3.1 配置 150
6.3.2 匹配入口節(jié)點(diǎn) 158
6.3.3 前后雙向匹配 160
6.3.4 執(zhí)行操作 160
6.4 FSA應(yīng)用 162
6.4.1 RunFSA算法過程 162
6.4.2 FSA應(yīng)用示例 163
第7章 GPF數(shù)據(jù)接口
7.1 初始語言結(jié)構(gòu)的數(shù)據(jù)源 168
7.1.1 離線形式的本地?cái)?shù)據(jù) 168
7.1.2 在線形式的第三方服務(wù) 169
7.2 初始語言結(jié)構(gòu)類型及數(shù)據(jù)接口 170
7.2.1 初始語言結(jié)構(gòu)類型 170
7.2.2 初始語言結(jié)構(gòu)數(shù)據(jù)接口 170
7.2.3 幾種典型結(jié)構(gòu)的數(shù)據(jù)接口 172
7.3 初始語言結(jié)構(gòu)在網(wǎng)格中的表示 178
7.3.1 分詞結(jié)構(gòu) 178
7.3.2 組塊結(jié)構(gòu) 182
7.3.3 短語結(jié)構(gòu)樹 185
7.3.4 詞依存結(jié)構(gòu) 191
7.3.5 組塊依存結(jié)構(gòu) 196
7.3.6 帶有分詞的組塊依存結(jié)構(gòu) 200
第8章 GPF應(yīng)用
8.1 GPF的配置 206
8.2 GPF的索引 207
8.2.1 索引數(shù)據(jù)表 207
8.2.2 索引有限狀態(tài)自動(dòng)機(jī) 208
8.3 GPF的運(yùn)行 209
8.3.1 本地運(yùn)行 211
8.3.2 網(wǎng)絡(luò)服務(wù) 213
8.3.3 GPF輸出 214
8.4 GPF的應(yīng)用 214
8.4.1 短語識(shí)別 215
8.4.2 詞義消歧 217
8.4.3 離合詞識(shí)別 220
第9章 GPF的API函數(shù)
9.1 GPF功能操作類API函數(shù) 227
9.1.1 SetText 227
9.1.2 AddStructure (JSON) 227
9.1.3 CallService 229
9.1.4 Segment 229
9.1.5 SetLexicon 230
9.1.6 Relate 230
9.1.7 GetSuffix 230
9.1.8 GetPrefix 231
9.1.9 RunFSA 231
9.1.10 GetParam 231
9.1.11 GB2UTF8 232
9.1.12 UTF82GB 232
9.1.13 cjson.decode 232
9.1.14 cjson.encode 233
9.2 GPF獲取類API函數(shù) 233
9.2.1 GetGrid 233
9.2.2 GetText 233
9.2.3 GetGridKVs 234
9.2.4 GetLog 235
9.2.5 GetUnit 235
9.2.6 GetUnits 235
9.2.7 GetUnitKVs 236
9.2.8 GetRelations 237
9.2.9 GetRelationKVs 238
9.2.10 GetTableItems 239
9.2.11 GetTableItemKVs 239
9.2.12 GetFSANode 240
9.3 GPF添加類API函數(shù) 241
9.3.1 AddUnit 241
9.3.2 Reduce 242
9.3.3 AddUnitKV 242
9.3.4 AddGridKV 242
9.3.5 AddRelation 243
9.3.6 AddRelationKV 243
9.4 GPF測(cè)試類API函數(shù) 244
9.4.1 IsUnit 244
9.4.2 IsRelation 244
9.4.3 IsTable 244
參考文獻(xiàn) 247