工業(yè)級(jí)知識(shí)圖譜:方法與實(shí)踐
定 價(jià):118 元
叢書名:阿里巴巴集團(tuán)技術(shù)叢書
- 作者:張偉
- 出版時(shí)間:2021/8/1
- ISBN:9787121417474
- 出 版 社:電子工業(yè)出版社
- 中圖法分類:TP18-64
- 頁(yè)碼:348
- 紙張:
- 版次:01
- 開本:16開
本書源于阿里巴巴千億級(jí)知識(shí)圖譜構(gòu)建與產(chǎn)業(yè)化應(yīng)用的工作總結(jié),對(duì)知識(shí)圖譜理論和大規(guī)模工業(yè)實(shí)踐進(jìn)行了全面和深入的闡述。本書以阿里巴巴的實(shí)戰(zhàn)經(jīng)驗(yàn)為中心,以深厚的理論成果為支撐,詳細(xì)闡述了知識(shí)圖譜的方方面面。首先介紹工業(yè)場(chǎng)景下知識(shí)圖譜的現(xiàn)狀、存在的問題和架構(gòu)設(shè)計(jì);然后從知識(shí)表示、知識(shí)融合、知識(shí)獲取、知識(shí)推理、知識(shí)存儲(chǔ)和知識(shí)圖譜前沿方向等方面入手,介紹大規(guī)模商品知識(shí)圖譜的構(gòu)建方法;最后結(jié)合阿里巴巴的業(yè)務(wù)實(shí)踐,詳細(xì)介紹知識(shí)圖譜的產(chǎn)品設(shè)計(jì)、技術(shù)實(shí)現(xiàn)和業(yè)務(wù)應(yīng)用細(xì)節(jié)。通過閱讀本書,讀者不僅可以從零開始認(rèn)識(shí)知識(shí)圖譜,了解知識(shí)圖譜技術(shù)方法和前沿技術(shù)方向,而且可以熟悉知識(shí)圖譜工業(yè)實(shí)踐的實(shí)現(xiàn)路徑,清楚知識(shí)圖譜的應(yīng)用方向和方法。本書介紹的成果獲得錢偉長(zhǎng)中文信息處理科學(xué)技術(shù)一等獎(jiǎng)。本書在知識(shí)圖譜的廣度和深度上兼具極強(qiáng)的參考性,適合人工智能相關(guān)行業(yè)的管理者和研發(fā)人員、高等院校的計(jì)算機(jī)專業(yè)學(xué)生閱讀。
張 偉博士畢業(yè)于新加坡國(guó)立大學(xué)。研究方向?yàn)橹R(shí)圖譜(KG)、自然語(yǔ)言處理(NLP)等。曾任阿里巴巴資深算法專家、新加坡資訊通信研究院NLP應(yīng)用實(shí)驗(yàn)室主任等職位。曾擔(dān)任NLP會(huì)議ACL領(lǐng)域主席,期刊TACL常駐審稿人。兼職復(fù)旦大學(xué)、蘇州大學(xué)碩士生校外導(dǎo)師。主導(dǎo)了阿里巴巴商品知識(shí)圖譜的建設(shè)。論文發(fā)表在WWW/EMNLP/AAAI/IJCAI/AIJ/CoLing/ICDE/WSDM/IJCNLP/NAACL/CIKM等國(guó)際會(huì)議和期刊上。獲得了錢偉長(zhǎng)中文信息處理科學(xué)技術(shù)一等獎(jiǎng),杭州市省級(jí)領(lǐng)軍人才等榮譽(yù)。陳華鈞浙江大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院教授/博導(dǎo),主要研究方向?yàn)橹R(shí)圖譜、大數(shù)據(jù)系統(tǒng)、自然語(yǔ)言處理等。在WWW/IJCAI/AAAI/KR/ACL/EMNLP/KDD/VLDB/ICDE/TKDE/ACM MM/Briefings in Bioinforamtics等國(guó)際會(huì)議或期刊上發(fā)表多篇論文。曾獲國(guó)際語(yǔ)義網(wǎng)會(huì)議ISWC2006最佳論文獎(jiǎng)、教育部技術(shù)發(fā)明一等獎(jiǎng)、錢偉長(zhǎng)中文信息處理科技獎(jiǎng)一等獎(jiǎng)、阿里巴巴優(yōu)秀學(xué)術(shù)合作獎(jiǎng)、中國(guó)工信傳媒出版集團(tuán)優(yōu)秀出版物一等獎(jiǎng)等獎(jiǎng)勵(lì)。牽頭發(fā)起中文開放知識(shí)圖譜OpenKG,中國(guó)人工智能學(xué)會(huì)知識(shí)工程專業(yè)委員會(huì)副主任、中國(guó)中文信息學(xué)會(huì)語(yǔ)言與知識(shí)計(jì)算專委會(huì)副主任,全國(guó)知識(shí)圖譜大會(huì)CCKS2020大會(huì)主席,Elsevier Big Data Research Journal Editor in Chief。張亦弛畢業(yè)于倫敦大學(xué)。工作研究方向?yàn)殡娚填I(lǐng)域知識(shí)圖譜構(gòu)建、自然語(yǔ)言處理和多模態(tài)技術(shù)在知識(shí)圖譜的應(yīng)用等。曾任阿里巴巴商品知識(shí)圖譜算法負(fù)責(zé)人。在阿里巴巴知識(shí)圖譜藏經(jīng)閣研究計(jì)劃中,聯(lián)合團(tuán)隊(duì)與清華大學(xué)、浙江大學(xué)、中科院軟件所、中科院自動(dòng)化所和蘇州大學(xué)等科研機(jī)構(gòu)協(xié)作,構(gòu)建了千億級(jí)商品知識(shí)圖譜數(shù)據(jù),服務(wù)了阿里十多個(gè)垂直電商平臺(tái)和海內(nèi)外多個(gè)國(guó)家市場(chǎng)。學(xué)術(shù)論文發(fā)表在BMVC/EMNLP/WSDM等國(guó)內(nèi)外會(huì)議和期刊中。團(tuán)隊(duì)多次榮獲中國(guó)國(guó)家編碼中心和中國(guó)ECR委員會(huì)頒發(fā)的創(chuàng)新項(xiàng)目獎(jiǎng)、卓越項(xiàng)目獎(jiǎng),中國(guó)中文信息學(xué)會(huì)錢偉長(zhǎng)科技獎(jiǎng)一等獎(jiǎng)等國(guó)家機(jī)構(gòu)和學(xué)術(shù)協(xié)會(huì)獎(jiǎng)項(xiàng)。
目 錄
第1章 工業(yè)級(jí)知識(shí)圖譜概述 / 1
1.1 知識(shí)圖譜概述 / 2
1.1.1 通用知識(shí)圖譜 / 2
1.1.2 行業(yè)知識(shí)圖譜 / 3
1.2 工業(yè)級(jí)知識(shí)圖譜實(shí)戰(zhàn)原則 / 4
1.2.1 實(shí)踐中的典型問題 / 4
1.2.2 實(shí)戰(zhàn)原則 / 4
1.3 阿里巴巴知識(shí)引擎技術(shù)架構(gòu) / 8
1.3.1 平臺(tái)產(chǎn)品:知識(shí)建模與管理 / 9
1.3.2 平臺(tái)產(chǎn)品:知識(shí)生產(chǎn) / 11
1.3.3 業(yè)務(wù)、平臺(tái)產(chǎn)品:知識(shí)服務(wù) / 16
1.4 本章小結(jié) / 19
第2章 商品知識(shí)的表示和建模 / 20
2.1 知識(shí)表示簡(jiǎn)介 / 21
2.1.1 基于符號(hào)邏輯的知識(shí)表示方法 / 21
2.1.2 面向互聯(lián)網(wǎng)的知識(shí)表示方法 / 23
2.1.3 基于連續(xù)向量的知識(shí)表示 / 25
2.2 行業(yè)知識(shí)建模 / 27
2.2.1 基于專家的知識(shí)建模 / 27
2.2.2 基于機(jī)器學(xué)習(xí)的知識(shí)建模 / 29
2.3 商品知識(shí)建模實(shí)踐 / 32
2.3.1 術(shù)語(yǔ)抽取 / 33
2.3.2 商品概念及上下位關(guān)系生成 / 36
2.4 構(gòu)建商品知識(shí)體系 / 37
2.4.1 通用域知識(shí)圖譜 / 37
2.4.2 阿里商品域知識(shí)體系 / 39
2.5 商品知識(shí)建模應(yīng)用場(chǎng)景 / 48
2.5.1 服務(wù)國(guó)家和社會(huì)機(jī)構(gòu)應(yīng)用 / 48
2.5.2 零售業(yè)務(wù)應(yīng)用 / 49
2.6 小結(jié) / 50
2.6.1 知識(shí)建模技術(shù)的未來發(fā)展 / 50
2.6.2 知識(shí)體系設(shè)計(jì)的未來發(fā)展 / 51
第3章 商品知識(shí)融合 / 53
3.1 知識(shí)融合概述 / 54
3.1.1 知識(shí)融合的主要難點(diǎn) / 54
3.1.2 知識(shí)融合的基本步驟 / 55
3.2 本體對(duì)齊 / 57
3.2.1 基于語(yǔ)言學(xué)特征的方法 / 58
3.2.2 基于結(jié)構(gòu)特征的方法 / 61
3.2.3 商品知識(shí)圖譜本體對(duì)齊算法 / 63
3.3 實(shí)體對(duì)齊 / 70
3.3.1 實(shí)體對(duì)齊的流程 / 70
3.3.2 實(shí)體對(duì)齊的技術(shù)路線 / 71
3.3.3 商品知識(shí)圖譜實(shí)體對(duì)齊實(shí)踐 / 80
3.4 信息融合 / 91
3.4.1 無監(jiān)督的信息融合方法 / 92
3.4.2 有監(jiān)督和半監(jiān)督的信息融合方法 / 99
3.4.3 商品知識(shí)圖譜信息融合算法實(shí)踐 / 100
3.5 跨語(yǔ)言知識(shí)融合 / 103
3.5.1 跨語(yǔ)言知識(shí)融合的挑戰(zhàn) / 103
3.5.2 跨語(yǔ)言實(shí)體對(duì)齊的技術(shù)路線 / 104
3.5.3 基于規(guī)則的跨語(yǔ)言實(shí)體對(duì)齊方法 / 104
3.5.4 基于翻譯的跨語(yǔ)言實(shí)體對(duì)齊方法 / 105
3.5.5 基于表示學(xué)習(xí)的跨語(yǔ)言實(shí)體對(duì)齊方法 / 107
3.6 知識(shí)融合質(zhì)量評(píng)估體系 / 110
3.6.1 知識(shí)融合評(píng)估指標(biāo)介紹 / 110
3.6.2 離線融合效果評(píng)估 / 112
3.6.3 在線融合效果評(píng)估 / 117
3.7 本章小結(jié) / 119
第4章 商品知識(shí)獲取 / 120
4.1 知識(shí)獲取概述 / 121
4.1.1 知識(shí)獲取相關(guān)任務(wù) / 121
4.1.2 知識(shí)獲取相關(guān)測(cè)評(píng)會(huì)議 / 123
4.2 命名實(shí)體識(shí)別 / 125
4.2.1 命名實(shí)體識(shí)別概覽 / 125
4.2.2 標(biāo)注體系及常用數(shù)據(jù)集 / 126
4.2.3 基于規(guī)則的命名實(shí)體識(shí)別 / 128
4.2.4 基于統(tǒng)計(jì)模型的命名實(shí)體識(shí)別 / 128
4.2.5 基于神經(jīng)網(wǎng)絡(luò)的實(shí)體識(shí)別 / 130
4.3 實(shí)體鏈接 / 133
4.3.1 實(shí)體鏈接概述 / 133
4.3.2 候選實(shí)體生成 / 133
4.3.3 候選實(shí)體排序 / 135
4.3.4 端到端的實(shí)體鏈接方法 / 138
4.4 關(guān)系抽取 / 139
4.4.1 關(guān)系抽取概述 / 139
4.4.2 基于模板的關(guān)系抽取方法 / 140
4.4.3 基于監(jiān)督學(xué)習(xí)的關(guān)系抽取方法 / 140
4.4.4 基于半監(jiān)督學(xué)習(xí)的關(guān)系抽取方法 / 149
4.4.5 基于無監(jiān)督學(xué)習(xí)的關(guān)系抽取方法 / 154
4.5 槽填充與屬性補(bǔ)全 / 156
4.5.1 槽填充與屬性補(bǔ)全概述 / 156
4.5.2 基于模板的方法 / 158
4.5.3 基于關(guān)系分類的方法 / 160
4.6 面向半結(jié)構(gòu)化數(shù)據(jù)的知識(shí)獲取 / 160
4.6.1 百科類網(wǎng)站數(shù)據(jù)抽取 / 160
4.6.2 面向Web網(wǎng)頁(yè)的知識(shí)獲取 / 161
4.7 低資源條件下知識(shí)獲取 / 162
4.7.1 基于監(jiān)督學(xué)習(xí)和弱監(jiān)督學(xué)習(xí)的方法 / 163
4.7.2 基于遷移學(xué)習(xí)的方法 / 163
4.7.3 基于元學(xué)習(xí)的方法 / 164
4.7.4 基于知識(shí)增強(qiáng)的方法 / 165
4.8 電商領(lǐng)域知識(shí)獲取實(shí)踐 / 166
4.8.1 電商知識(shí)獲取框架 / 166
4.8.2 面向場(chǎng)景導(dǎo)購(gòu)的知識(shí)獲取示例 / 169
4.8.3 低資源商品知識(shí)獲取示例 / 177
4.9 本章小結(jié) / 180
第5章 商品知識(shí)推理 / 182
5.1 知識(shí)推理概述 / 183
5.1.1 知識(shí)推理的作用 / 183
5.1.2 專家系統(tǒng)與知識(shí)推理 / 184
5.1.3 神經(jīng)網(wǎng)絡(luò)與知識(shí)推理 / 185
5.2 基于符號(hào)邏輯的知識(shí)推理 / 186
5.2.1 基于本體的知識(shí)推理方法 / 187
5.2.2 基于規(guī)則的知識(shí)推理方法 / 191
5.2.3 基于規(guī)則學(xué)習(xí)的知識(shí)圖譜推理 / 197
5.3 基于表示學(xué)習(xí)的知識(shí)推理 / 200
5.3.1 基于分布式表示的知識(shí)推理 / 200
5.3.2 基于神經(jīng)網(wǎng)絡(luò)的知識(shí)推理 / 210
5.4 基于圖數(shù)據(jù)庫(kù)的商品知識(shí)推理引擎工程實(shí)踐 / 218
5.4.1 技術(shù)框架簡(jiǎn)介 / 219
5.4.2 與傳統(tǒng)規(guī)則推理引擎的對(duì)比 / 223
5.5 可解釋的商品知識(shí)圖譜推理應(yīng)用實(shí)踐 / 226
5.5.1 電商應(yīng)用背景 / 226
5.5.2 技術(shù)實(shí)踐方案 / 228
5.5.3 實(shí)驗(yàn)結(jié)果及案例分析 / 233
5.6 基于強(qiáng)化學(xué)習(xí)的商品規(guī)則學(xué)習(xí)與推理應(yīng)用實(shí)踐 / 236
5.6.1 電商應(yīng)用背景 / 236
5.6.2 技術(shù)實(shí)踐方案 / 238
5.6.3 實(shí)驗(yàn)結(jié)果及案例分析 / 240
5.7 本章小結(jié) / 241
第6章 知識(shí)圖譜的存儲(chǔ)、服務(wù)與質(zhì)量 / 243
6.1 知識(shí)圖譜的存儲(chǔ) / 244
6.1.1 數(shù)據(jù)模型 / 244
6.1.2 存儲(chǔ)系統(tǒng)選型 / 247
6.1.3 圖查詢語(yǔ)言 / 252
6.1.4 關(guān)鍵技術(shù)與選擇 / 254
6.2 知識(shí)圖譜的服務(wù) / 257
6.2.1 基于知識(shí)圖譜的搜索 / 258
6.2.2 基于知識(shí)圖譜的推薦 / 264
6.2.3 搜索推薦在業(yè)務(wù)智能中的應(yīng)用 / 274
6.2.4 基于知識(shí)圖譜的問答系統(tǒng) / 278
6.3 知識(shí)圖譜質(zhì)量保障 / 281
6.3.1 質(zhì)量保障架構(gòu) / 281
6.3.2 測(cè)試原則與方法 / 282
6.4 本章小結(jié) / 284
第7章 大規(guī)模商品知識(shí)圖譜
預(yù)訓(xùn)練 / 285
7.1 知識(shí)預(yù)訓(xùn)練概述 / 286
7.1.1 預(yù)訓(xùn)練語(yǔ)言模型 / 286
7.1.2 知識(shí)圖譜中的結(jié)構(gòu)化上下文信息 / 288
7.1.3 基于知識(shí)增強(qiáng)的預(yù)訓(xùn)練模型 / 289
7.1.4 預(yù)訓(xùn)練知識(shí)圖譜模型與預(yù)訓(xùn)練語(yǔ)言模型的區(qū)別 / 293
7.2 商品知識(shí)圖譜靜態(tài)預(yù)訓(xùn)練模型 / 294
7.2.1 預(yù)訓(xùn)練知識(shí)圖譜查詢框架 / 294
7.2.2 預(yù)訓(xùn)練知識(shí)圖譜查詢模塊 / 295
7.2.3 預(yù)訓(xùn)練知識(shí)圖譜查詢服務(wù) / 296
7.2.4 在任務(wù)模塊中使用查詢服務(wù) / 297
7.3 商品知識(shí)圖譜動(dòng)態(tài)預(yù)訓(xùn)練模型 / 299
7.3.1 上下文模塊和整合模塊 / 299
7.3.2 預(yù)訓(xùn)練階段和微調(diào)階段 / 301
7.4 商品知識(shí)圖譜預(yù)訓(xùn)練實(shí)踐案例 / 303
7.4.1 基于知識(shí)圖譜預(yù)訓(xùn)練的商品分類 / 304
7.4.2 基于知識(shí)圖譜預(yù)訓(xùn)練的商品對(duì)齊 / 309
7.4.3 基于知識(shí)圖譜預(yù)訓(xùn)練的商品推薦 / 312
7.4.4 基于商品知識(shí)預(yù)訓(xùn)練的實(shí)體識(shí)別 / 316
7.4.5 基于商品知識(shí)預(yù)訓(xùn)練的關(guān)系抽取與屬性補(bǔ)齊 / 318
7.4.6 基于商品知識(shí)預(yù)訓(xùn)練的標(biāo)題生成 / 324
7.5 總結(jié)與展望 / 325
參考文獻(xiàn) / 326