知識圖譜的發(fā)展歷史源遠流長,從經典人工智能的核心命題——知識工程,到互聯(lián)網時代的語義Web,再到當下很多領域構建的數(shù)千億級別的現(xiàn)代知識圖譜。知識圖譜兼具人工智能、大數(shù)據(jù)和互聯(lián)網的多重技術基因,是知識表示、表示學習、自然語言處理、圖數(shù)據(jù)庫和圖計算等多個領域技術的綜合集成。本書全面覆蓋了知識圖譜的表示、存儲、獲取、推理、融合、問答和分析等七大方面,100多個基礎知識點的內容,同時囊括多模態(tài)知識圖譜、知識圖譜與圖神經網絡的融合、本體表示學習、事理知識圖譜,以及知識增強的語言預訓練模型等新熱點、新發(fā)展。作為一本導論性質的書,本書希望幫助初學者梳理知識圖譜的基本知識點和關鍵技術要素,也希望幫助技術決策者建立知識圖譜的整體視圖和系統(tǒng)工程觀,為前沿科研人員拓展創(chuàng)新視野和研究方向。本書在技術廣度和深度上兼具極強的參考性,適合高等院校的計算機專業(yè)師生閱讀,也可供計算機相關行業(yè)的管理者和研發(fā)人員參考。
陳華鈞,浙江大學計算機科學與技術學院教授。主要研究方向為知識圖譜、自然語言處理、大數(shù)據(jù)系統(tǒng)等。在WWW/IJCAI/AAAI/ACL/VLDB/ICDE, IEEE CIM, IEEE IS, TKDE, Briefings in Bioinformatics 等國際頂級會議或期刊上發(fā)表多篇論文。作為負責人主持2項國家自然科學基金重點類項目,以及國家重點研發(fā)計劃課題、國家重大科技專項項目及企業(yè)合作項目等二十余項。曾獲國際語義網會議ISWC最佳論文獎(一作)、教育部技術發(fā)明一等獎、國家科技進步二等獎、中國中文信息學會錢偉長科技獎一等獎、阿里巴巴優(yōu)秀學術合作獎、博文視點圖書獎等獎勵。擔任浙江大學阿里巴巴知識引擎聯(lián)合實驗室主任、浙江省大數(shù)據(jù)智能計算重點實驗室副主任、中國人工智能學會知識工程專委會副主任、中國中文信息學會語言與知識計算專委會副主任、全國知識圖譜大會CCKS2020 大會主席、國際語義技術聯(lián)合會議JIST2019大會主席、Elsevier Big Data Research Journal Editor in Chief。
目錄
第1章 知識圖譜概述 1
1.1 語言與知識 2
1.1.1 構建有學識的人工智能 2
1.1.2 知識的承載與表示方式 3
1.1.3 知識圖譜是一種世界模型 5
1.2 知識圖譜的起源 7
1.2.1 知識圖譜的互聯(lián)網基因 7
1.2.2 數(shù)據(jù)的互聯(lián)網—Semantic Web 9
1.2.3 Things, Not Strings 10
1.2.4 典型的知識圖譜項目 10
1.2.5 知識圖譜的概念演進 11
1.3 知識圖譜的價值 12
1.3.1 知識圖譜支持語義搜索 12
1.3.2 知識圖譜支持智能問答 12
1.3.3 知識圖譜支持下的推薦系統(tǒng) 13
1.3.4 知識圖譜輔助語言語義理解 13
1.3.5 知識圖譜擴展視覺理解的深度和廣度 14
1.3.6 知識圖譜輔助IoT設備互聯(lián) 14
1.3.7 知識圖譜支持下的大數(shù)據(jù)分析 15
1.4 知識圖譜的技術內涵 16
1.4.1 知識圖譜是交叉技術領域 16
1.4.2 知識圖譜的兩個核心技術維度 17
1.4.3 知識圖譜的技術棧 17
1.5 建立知識圖譜的系統(tǒng)工程觀 20
第2章 知識圖譜的表示 21
2.1 什么是知識表示 22
2.1.1 知識表示的五個用途 22
2.1.2 符號表示與向量表示 23
2.2 人工智能歷史發(fā)展長河中的知識表示 24
2.2.1 描述邏輯 25
2.2.2 霍恩規(guī)則邏輯 25
2.2.3 產生式系統(tǒng) 26
2.2.4 框架系統(tǒng) 26
2.2.5 語義網絡 27
2.3 知識圖譜的符號表示方法 28
2.3.1 基于圖的知識表示方法 28
2.3.2 屬性圖 29
2.3.3 RDF圖模型 30
2.3.4 OWL Web本體語言 31
2.4 知識圖譜的向量表示方法 32
2.4.1 從詞向量講起 33
2.4.2 從詞向量到實體向量 35
2.4.3 知識圖譜向量表示學習模型 35
2.4.4 知識圖譜向量表示的局限性 37
2.5 總結 38
第3章 知識圖譜的存儲與查詢 39
3.1 基于關系型數(shù)據(jù)庫的知識圖譜存儲 40
3.1.1 圖數(shù)據(jù)存儲的特點 40
3.1.2 基于三元組表的圖譜存儲 41
3.1.3 基于屬性表的圖譜存儲 41
3.1.4 基于垂直劃分表的知識圖譜存儲 42
3.1.5 基于全索引結構的知識圖譜存儲 43
3.2 基于原生圖數(shù)據(jù)庫的知識圖譜存儲 44
3.2.1 關系數(shù)據(jù)庫的局限性 44
3.2.2 原生圖數(shù)據(jù)庫的優(yōu)點 47
3.2.3 原生圖數(shù)據(jù)庫使用舉例 49
3.2.4 什么時候使用原生圖數(shù)據(jù)庫 50
3.3 原生圖數(shù)據(jù)庫實現(xiàn)原理淺析 52
3.3.1 免索引鄰接 52
3.3.2 原生圖數(shù)據(jù)庫的物理存儲設計 52
3.3.3 節(jié)點和關系邊的存儲處理 53
3.3.4 圖遍歷查詢的物理實現(xiàn) 54
3.3.5 屬性數(shù)據(jù)的物理存儲處理 54
3.3.6 屬性圖與RDF圖存儲的比較 55
3.4 總結 55
第4章 知識圖譜的獲取與構建 57
4.1 重新理解知識工程與知識獲取 58
4.1.1 知識工程發(fā)展歷史簡介 58
4.1.2 知識獲取的瓶頸問題 59
4.1.3 知識圖譜工程 60
4.1.4 知識圖譜與傳統(tǒng)知識工程的差異 61
4.2 實體識別 62
4.2.1 實體識別任務簡介 62
4.2.2 基于HMM的實體識別 63
4.2.3 基于CRF的實體識別 69
4.2.4 基于深度學習的實體識別 70
4.3 關系抽取 71
4.3.1 關系抽取任務定義 71
4.3.2 基于模板的關系抽取 72
4.3.3 基于特征工程的關系抽取 73
4.3.4 基于核函數(shù)的關系抽取 74
4.3.5 基于深度學習模型的關系抽取 75
4.3.6 實體關系聯(lián)合抽取 78
4.3.7 基于遠程監(jiān)督的關系抽取 79
4.3.8 基于Bootstrapping的半監(jiān)督關系抽取 80
4.4 屬性補全 81
4.5 概念抽取 83
4.5.1 概念圖譜簡介 83
4.5.2 概念抽取的方法 84
4.5.3 概念圖譜的應用場景 86
4.6 事件識別與抽取 87
4.6.1 事件抽取概述 87
4.6.2 事件抽取的方法 88
4.7 知識抽取技術前沿 91
4.7.1 知識抽取發(fā)展趨勢 91
4.7.2 少樣本知識抽取 91
4.7.3 零樣本知識抽取 93
4.7.4 終生知識抽取 94
4.8 總結 95
第5章 知識圖譜推理 96
5.1 推理簡述 97
5.1.1 什么是推理 97
5.1.2 機器推理舉例 99
5.2 知識圖譜推理簡介 101
5.2.1 知識圖譜上的推理實現(xiàn) 101
5.2.2 基于本體公理的知識圖譜推理 103
5.2.3 基于圖結構與規(guī)則學習的知識圖譜推理 104
5.2.4 基于表示學習的知識圖譜推理 105
5.2.5 基于圖神經網絡的知識圖譜推理 106
5.2.6 符號推理與表示學習的融合 107
5.3 基于符號邏輯的知識圖譜推理 108
5.3.1 基于本體的推理 108
5.3.2 基于Datalog的知識圖譜推理 113
5.3.3 基于產生式規(guī)則的推理 114
5.3.4 符號知識圖譜推理總結 117
5.4 基于表示學習的知識圖譜推理 117
5.4.1 利用機器學習實現(xiàn)知識圖譜歸納推理 117
5.4.2 基于嵌入學習的知識圖譜推理 118
5.4.3 基于規(guī)則學習的知識圖譜推理 127
5.4.4 本體嵌入 136
5.5 知識圖譜推理總結 144
第6章 知識圖譜融合 146
6.1 知識圖譜融合概述 147
6.1.1 知識異構性 147
6.1.2 知識異構的原因分析 147
6.1.3 不同層次的知識圖譜融合 148
6.2 概念層融合——本體匹配 150
6.2.1 基于術語匹配的本體層融合 151
6.2.2 基于結構特征的本體層融合 153
6.2.3 基于知識分塊的大規(guī)模本體匹配 154
6.3 實例層的融合——實體對齊 155
6.3.1 實體對齊方法概述 155
6.3.2 基于表示學習的實體對齊 156
6.3.3 實體融合工具簡介 158
6.4 知識融合技術前沿 159
6.5 總結 162
第7章 知識圖譜問答 163
7.1 智能問答概述 164
7.1.1 智能問答系統(tǒng)的發(fā)展歷史 164
7.1.2 智能問答系統(tǒng)的分類 166
7.1.3 實現(xiàn)知識圖譜問答的主要技術方法 169
7.1.4 知識圖譜問答的主要評測數(shù)據(jù)集 170
7.2 基于問句模板的知識圖譜問答 172
7.2.1 模板問答概述 172
7.2.2 模板問答實現(xiàn)舉例 173
7.2.3 模板的自動化生成 175
7.3 基于語義解析的知識圖譜問答 178
7.3.1 語義解析問答概述 178
7.3.2 邏輯表達語言 179
7.3.3 語義解析舉例 181
7.3.4 橋接與短語重寫 183
7.3.5 語義解析總結 184
7.4 基于檢索排序的知識圖譜問答 185
7.4.1 檢索排序知識圖譜問答概述 185
7.4.2 實體鏈接技術 186
7.4.3 檢索排序模型 188
7.5 基于深度學習的知識圖譜問答 188
7.5.1 深度學習在知識圖譜問答中的兩種用法 188
7.5.2 利用深度學習增強語義解析 189
7.5.3 基于端到端神經網絡模型的知識圖譜問答 192
7.6 知識圖譜問答總結 195
第8章 圖算法與圖數(shù)據(jù)分析 196
8.1 圖的基本知識 197
8.1.1 圖與網絡科學 197
8.1.2 圖的基本概念 198
8.1.3 圖的基本模型 201
8.2 基礎圖算法 204
8.2.1 圖算法概述 204
8.2.2 路徑與圖搜索算法 205
8.2.3 中心度算法 207
8.2.4 社區(qū)發(fā)現(xiàn)算法 209
8.3 圖表示學習與圖神經網絡 211
8.3.1 圖表示學習概述 211
8.3.2 隨機游走序列模型 213
8.3.3 圖神經網絡模型 216
8.4 知識圖譜與圖神經網絡 224
8.4.1 在知識圖譜表示學習與推理中的應用 224
8.4.2 在知識圖譜構建中的應用 227
8.4.3 知識圖譜+圖神經網絡 229
8.5 總結 232
第9章 知識圖譜技術發(fā)展 233
9.1 多模態(tài)知識圖譜 234
9.1.1 多模態(tài)簡介 234
9.1.2 多模態(tài)的價值與作用 237
9.1.3 多模態(tài)知識圖譜舉例 239
9.1.4 多模態(tài)知識圖譜研究 242
9.1.5 多模態(tài)知識圖譜總結 247
9.2 知識圖譜與語言預訓練 248
9.2.1 知識圖譜與語言預訓練 248
9.2.2 語言預訓練簡介 248
9.2.3 知識圖譜增強的語言預訓練模型舉例 250
9.2.4 知識驅動的語言預訓練總結 255
9.3 事理知識圖譜 255
9.3.1 事理知識圖譜的定義 256
9.3.2 事理圖譜與知識圖譜 257
9.3.3 事理邏輯關系 258
9.3.4 事理圖譜的應用 260
9.3.5 事理圖譜總結 261
9.4 知識圖譜與低資源學習 261
9.4.1 知識圖譜與低資源學習 261
9.4.2 低資源條件下的知識圖譜構建 263
9.4.3 基于知識圖譜的低資源學習 271
9.4.4 知識圖譜與低資源學習總結 276
9.5 結構化知識預訓練 276
9.5.1 結構化知識預訓練概述 276
9.5.2 知識圖譜結構化上下文 277
9.5.3 知識圖譜靜態(tài)預訓練模型 278
9.5.4 知識圖譜動態(tài)預訓練模型 283
9.5.5 應用實踐及實驗結果 289
9.5.6 結構化知識預訓練總結 293
9.6 知識圖譜與區(qū)塊鏈 293
9.6.1 知識圖譜的價值聯(lián)邦 293
9.6.2 聯(lián)邦知識圖譜 297
9.6.3 知識圖譜與區(qū)塊鏈 297
9.6.4 開放知識圖譜與區(qū)塊鏈 299
9.6.5 知識圖譜與區(qū)塊鏈總結 300