基于混合方法的自然語言處理:神經(jīng)網(wǎng)絡(luò)模型與知識圖譜的結(jié)合
定 價:99 元
叢書名:智能科學(xué)與技術(shù)叢書
- 作者:[西]何塞·曼努埃爾·戈麥斯-佩雷斯,[西]羅納德·德諾,[西]安德烈·加西亞-席爾瓦
- 出版時間:2021/9/1
- ISBN:9787111690696
- 出 版 社:機械工業(yè)出版社
- 中圖法分類:TP391
- 頁碼:
- 紙張:膠版紙
- 版次:
- 開本:16開
本書分為三個部分:基于知識圖譜和神經(jīng)網(wǎng)絡(luò)的構(gòu)建部分;結(jié)合知識圖譜和神經(jīng)網(wǎng)絡(luò)的混合體系結(jié)構(gòu);實際應(yīng)用部分。在三個部分中,主題通常是獨立的,允許讀者快速、輕松地閱讀所需的信息。本書的兩個特點是實用性和擁有前沿信息。書中準(zhǔn)確地演示了如何創(chuàng)建和使用上下文表示,對意義嵌入和知識圖譜嵌入有著明確的處理方法,解釋了使用它們的語言模型和Transformer體系結(jié)構(gòu)。
對于自然語言處理而言,基于神經(jīng)網(wǎng)絡(luò)和基于知識圖譜這兩種方法各有千秋。神經(jīng)網(wǎng)絡(luò)方法非常強大,并一直處于當(dāng)前NLP排行榜的位置。然而,它們也有軟肋,比如訓(xùn)練數(shù)據(jù)的數(shù)量和質(zhì)量,模型與人類如何使用語言以及人類對世界的理解之間的聯(lián)系等。另外,基于結(jié)構(gòu)化知識表示的自然語言處理系統(tǒng)雖然不能完全解決這些問題,但往往比較適合解決其中的一些問題。然而,它們可能需要相當(dāng)多的知識工程工作,以持續(xù)組織這樣的結(jié)構(gòu)化表示。
本書的主要前提是,數(shù)據(jù)驅(qū)動的方法和基于知識圖譜的方法可以相得益彰,取長補短。盡管許多人提倡在NLP和人工智能的許多其他領(lǐng)域結(jié)合應(yīng)用這兩種范式,但事實是,直到現(xiàn)在,這種結(jié)合還不常見,原因可能是缺乏實現(xiàn)這一目標(biāo)的原則性方法和指導(dǎo)方針,也可能是缺乏令人信服的成功案例。
而人工智能的研究,特別是在自然語言處理和知識圖譜領(lǐng)域,已經(jīng)達(dá)到了成熟的水平,并滲透到其他領(lǐng)域,引起了深刻的社會和商業(yè)變革。因此,本書特別側(cè)重于討論實踐方面的主題,旨在為感興趣的讀者提供必要的手段,使讀者能夠掌握將神經(jīng)網(wǎng)絡(luò)方法和基于知識圖譜的方法結(jié)合到自然語言處理中的實踐方法,建立彌合兩者之間差距的橋梁。
總的來說,對于對神經(jīng)網(wǎng)絡(luò)和基于知識圖譜的方法在自然語言處理領(lǐng)域的結(jié)合感興趣的讀者而言,本書非常有用。有結(jié)構(gòu)化知識表示背景的讀者,例如有語義網(wǎng)、知識獲取、知識表示和推理社區(qū)方面的背景,總的來說也就是那些基于邏輯方法研究人工智能的讀者,可以在本書中找到實用指南。同樣,我們希望本書對那些主要背景在機器學(xué)習(xí)和深度學(xué)習(xí)領(lǐng)域的讀者同樣有用,他們可能正在尋找利用結(jié)構(gòu)化知識庫優(yōu)化NLP下游結(jié)果的方法。
因此,來自上述領(lǐng)域的工業(yè)界和學(xué)術(shù)界的讀者將在本書中找到混合自然語言處理的實用資源。在本書中,我們將展示如何利用互補表示,這些表示源于對非結(jié)構(gòu)化文本語料庫以及知識圖譜中明確描述的實體和關(guān)系的分析,整合這些表示,并使用由此產(chǎn)生的特征來有效地解決不同領(lǐng)域的自然語言處理任務(wù)。在本書中,讀者可以在示例、練習(xí)以及關(guān)鍵領(lǐng)域的實際應(yīng)用(如虛假信息分析和科學(xué)文獻(xiàn)的機器閱讀理解)上使用實際的可執(zhí)行代碼。
在本書中,對于無論是基于知識圖譜、神經(jīng)網(wǎng)絡(luò)還是基于其他形式的機器學(xué)習(xí)的自然語言處理方法、技術(shù)和工具箱,我們并沒有提供詳盡的說明。我們認(rèn)為這些內(nèi)容已經(jīng)在參考文獻(xiàn)中得到了充分的闡述。相反,我們專注于讀者真正需要掌握的主要構(gòu)建模塊,以便讀者能夠吸收和應(yīng)用本書的主要思想。事實上,本書所有章節(jié)都是獨立的,一般讀者在理解時不會遇到太大困難。因此,本書可以作為一本簡潔而富有洞察力的手冊,專注于協(xié)調(diào)基于知識圖譜的方法和神經(jīng)網(wǎng)絡(luò)方法在自然語言處理中應(yīng)用的主要挑戰(zhàn)上。我們希望你會喜歡。
本書目標(biāo)
本書為讀者提供了一個自然語言處理的混合方法的原則性實用指南,主要涉及神經(jīng)網(wǎng)絡(luò)方法和知識圖譜的結(jié)合。本書解決了一些與混合自然語言處理系統(tǒng)相關(guān)的問題,包括:
神經(jīng)網(wǎng)絡(luò)方法如何以具有成本效益和可實踐的方式擴展像知識圖譜一樣預(yù)先捕獲顯式表示的知識?反過來又如何呢?
結(jié)合神經(jīng)網(wǎng)絡(luò)和基于知識圖譜的方法的自然語言處理混合方法的主要構(gòu)建模塊和技術(shù)是什么?
如何將神經(jīng)網(wǎng)絡(luò)表示與結(jié)構(gòu)化的、基于知識圖譜的表示無縫集成?
這種混合方法能否產(chǎn)生更好的知識圖譜和神經(jīng)網(wǎng)絡(luò)表示?
如何檢查和評估混合方法所產(chǎn)生的混合表示的質(zhì)量?
混合方法對NLP任務(wù)的性能有什么影響?對其他數(shù)據(jù)形式(比如圖像或圖表)的處理有什么影響以及其相互作用有什么影響?
基于以上問題,本書首先介紹了主要的構(gòu)建模塊,然后描述了它們?nèi)绾蜗嗷ゾo密地關(guān)聯(lián),進(jìn)而支持實際自然語言處理應(yīng)用程序的有效實現(xiàn)。為了說明本書描述的思想,我們包含了一套全面的實驗和練習(xí),涉及可以根據(jù)任務(wù)領(lǐng)域和語料庫進(jìn)行選擇的不同算法。
本書各章概述
接下來,我們介紹本書的章節(jié)結(jié)構(gòu)安排:
第1章介紹本書的創(chuàng)作靈感及在當(dāng)前的自然語言處理學(xué)科背景下本書的總體目標(biāo)。
第2章介紹單詞、語義/概念和知識圖譜嵌入,它們是生成混合自然語言處理系統(tǒng)的主要構(gòu)建模塊。我們探討各種不同的方法:簡單的詞嵌入學(xué)習(xí)、從語料庫和語義網(wǎng)絡(luò)中學(xué)習(xí)語義和概念嵌入,以及根本不使用語料庫直接從知識圖譜中學(xué)習(xí)概念嵌入的方法。
第3章重點研究詞嵌入,并根據(jù)所使用的方法和語料庫來分析其中包含的信息。除了預(yù)訓(xùn)練的靜態(tài)嵌入,重點放在神經(jīng)網(wǎng)絡(luò)語言模型和上下文的嵌入上。
第4章引導(dǎo)讀者通過一個可執(zhí)行的Jupyter Notebook,重點介紹一個特定的詞嵌入算法,如Swivel[164]及其實現(xiàn),以說明如何方便地從文本語料庫中生成詞嵌入。
第5章與第4章的方式類似,本章利用一個像WordNet這樣的現(xiàn)有知識圖譜,利用HolE等特定的知識圖譜算法生成圖譜嵌入,還提供了一個可執(zhí)行的Jupyter Notebook。
第6章提出一種利用知識圖譜從文本語料庫中聯(lián)合學(xué)習(xí)單詞和概念嵌入的方法Vecsigrafo[39]。與第5章中描述的方法不同,Vecsigrafo不僅從知識圖譜中學(xué)習(xí),也從訓(xùn)練語料庫中學(xué)習(xí)。我們將看到這種方法的一些優(yōu)
推薦序一
推薦序二
譯者序
前言
部分 預(yù)備知識和構(gòu)建模塊
第1章 混合自然語言處理簡介2
1.1 知識圖譜、嵌入和語言模型簡史2
1.2 自然語言處理中知識圖譜和神經(jīng)網(wǎng)絡(luò)方法的結(jié)合4
第2章 單詞、意義和知識圖譜嵌入6
2.1 引言6
2.2 分布式單詞表示6
2.3 詞嵌入7
2.4 意義和概念嵌入8
2.5 知識圖譜嵌入9
2.6 本章小結(jié)13
第3章 理解詞嵌入和語言模型14
3.1 引言14
3.2 語言模型15
3.2.1 統(tǒng)計語言模型15
3.2.2 神經(jīng)語言模型16
3.3 NLP遷移學(xué)習(xí)的預(yù)訓(xùn)練模型微調(diào)16
3.3.1 ELMo16
3.3.2 GPT17
3.3.3 BERT17
3.4 機器人檢測中預(yù)訓(xùn)練語言模型的微調(diào)18
3.4.1 實驗結(jié)果與討論21
3.4.2 使用Transformer庫對BERT進(jìn)行微調(diào)21
3.5 本章小結(jié)27
第4章 從文本中捕獲意義作為詞嵌入28
4.1 引言28
4.2 下載一個小文本語料庫29
4.3 一種學(xué)習(xí)詞嵌入的算法29
4.4 使用Swivel prep生成共現(xiàn)矩陣30
4.5 從共現(xiàn)矩陣中學(xué)習(xí)嵌入31
4.6 讀取并檢查存儲的二進(jìn)制嵌入32
4.7 練習(xí):從古騰堡工程中創(chuàng)建詞嵌入33
4.7.1 下載語料庫并進(jìn)行預(yù)處理33
4.7.2 學(xué)習(xí)嵌入34
4.7.3 檢查嵌入34
4.8 本章小結(jié)34
第5章 捕獲知識圖譜嵌入35
5.1 引言35
5.2 知識圖譜嵌入35
5.3 為WordNet創(chuàng)建嵌入37
5.3.1 選擇嵌入算法:HolE37
5.3.2 將WordNet知識圖譜轉(zhuǎn)換為所需輸入39
5.3.3 學(xué)習(xí)嵌入44
5.3.4 檢查嵌入結(jié)果44
5.4 練習(xí)47
5.4.1 練習(xí):在自己的知識圖譜上訓(xùn)練嵌入47
5.4.2 練習(xí):檢查WordNet 3.0的預(yù)計算嵌入47
5.5 本章小結(jié)48
第二部分 神經(jīng)網(wǎng)絡(luò)與知識圖譜的結(jié)合
第6章 從文本語料庫、知識圖譜和語言模型中構(gòu)建混合表達(dá)50
6.1 引言50
6.2 準(zhǔn)備工作和說明51
6.3 Vecsigrafo的概念及構(gòu)建方式 51
6.4 實現(xiàn)53
6.5 訓(xùn)練Vecsigrafo54
6.5.1 標(biāo)記化和詞義消歧56
6.5.2 詞匯表和共現(xiàn)矩陣58
6.5.3 從共現(xiàn)矩陣學(xué)習(xí)嵌入62
6.5.4 檢查嵌入64
6.6 練習(xí):探索一個預(yù)先計算好的Vecsigrafo66
6.7 從Vecsigrafo到Transigrafo68
6.7.1 安裝設(shè)置70
6.7.2 訓(xùn)練Transigrafo71
6.7.3 擴展知識圖譜的覆蓋范圍73
6.7.4 評估 Transigrafo73
6.7.5 檢查Transigrafo中的義項嵌入 75
6.7.6 探索Transigrafo嵌入的穩(wěn)定性77
6.7.7 額外的反思81
6.8 本章小結(jié)81
第7章 質(zhì)量評估82
7.1 引言82
7.2 評估方法的概述83
7.3 練習(xí)1:評估單詞和概念嵌入84
7.3.1 可視化探索84
7.3.2 內(nèi)在評估85
7.3.3 詞匯預(yù)測圖87
7.3.4 外在評估90
7.4 練習(xí)2:評價通過嵌入獲取的關(guān)系知識90
7.4.1 下載embrela項目91
7.4.2 下載生成的數(shù)據(jù)集91
7.4.3 加載待評估的嵌入92
7.4.4 學(xué)習(xí)模型94
7.4.5 分析模型的結(jié)果94
7.4.6 數(shù)據(jù)預(yù)處理:合并且增加字段 96
7.4.7 計算范圍閾值和偏差數(shù)據(jù)集檢測97
7.4.8 發(fā)現(xiàn)統(tǒng)計上有意義的模型99
7.4.9 關(guān)系型知識的評估結(jié)論101
7.5 案例研究:評估和對比Vecsigrafo嵌入101
7.5.1 比較研究101
7.5.2 討論111
7.6 本章小結(jié)114
第8章 利用Vecsigrafo捕獲詞法、語法和語義信息116
8.1 引言116
8.2 方法118
8.2.1 Vecsigrafo:基于語料的單詞–概念嵌入118
8.2.2 聯(lián)合嵌入空間119
8.2.3 嵌入的評估119
8.3 評估120
8.3.1 數(shù)據(jù)集121
8.3.2 單詞相似度121
8.3.3 類比推理124
8.3.4 單詞預(yù)測125
8.3.5 科學(xué)文檔的分類127
8.4 討論129
8.5 練習(xí):使用surface form對科學(xué)文獻(xiàn)進(jìn)行分類130
8.5.1 導(dǎo)入所需的庫130
8.5.2 下載surface form的詞嵌入和SciGraph論文131
8.5.3 讀取并準(zhǔn)備分類數(shù)據(jù)集131
8.5.4 surface form的詞嵌入133
8.5.5 創(chuàng)建嵌入層134
8.5.6 訓(xùn)練一個卷積神經(jīng)網(wǎng)絡(luò)134
8.6 本章小結(jié)136
第9章 知識圖譜的詞嵌入空間對齊與應(yīng)用137
9.1 引言137
9.2 概述及可能的應(yīng)用138
9.2.1 知識圖譜的補全139
9.2.2 超越多語言性:跨模態(tài)的詞嵌入139
9.3 詞嵌入空間的對齊技術(shù)140
9.3.1 線性對齊140
9.3.2 非線性對齊146
9.4 練習(xí):尋找古代英語和現(xiàn)代英語的對應(yīng)146
9.4.1 下載小型文本語料庫146
9.4.2 學(xué)習(xí)基于老莎士比亞語料庫的Swivel詞嵌入147
9.4.3 在WordNet之上加載UMBC的Vecsigrafo149
9.4.4 練習(xí)的結(jié)論149
9.5 本章小結(jié)150
第三部分 應(yīng)用
第10章 一種虛假信息分析的混合方法152
10.1 引言152
10.2 虛假信息檢測153
10.2.1 定義和背