未登錄詞處理主要包括識別、詞類標注和語義類標注等內容。目前自然語言處理學界對于未登錄詞識別研究較多,對于未登錄詞詞類標注和語義類標注則研究較少。因此,本文主要專注于現(xiàn)代漢語未登錄詞詞類標注和語義類標注的研究。在未登錄詞詞類標注和語義類標注過程中主要有兩類可以使用的特征,即內部特征和外部特征。所謂內部特征指未登錄詞的成分、成分的屬性以及成分、成分屬性的組合序列;所謂外部特征指未登錄詞在語料中的分布,通常用未登錄詞的上下文來表示。本文在前人研究工作的基礎上,構建了大規(guī)模的生語料庫,分別使用基于內部特征和外部特征的方法以及兩種特征相結合的方法來自動處理未登錄詞詞類和語義類標注的問題。
更多科學出版社服務,請掃碼獲取。
2000年我給北京大學中文系本科四年級學生開“理論語言學”課,邱立坤是班上最喜歡提問題和爭論問題的同學之一。他也是一位癡迷語言學的年輕人,每次和同學或老師談起語言學,眼睛就開始發(fā)亮。那時候我們經常討論句法結構關系、語類問題和句法的初始概念問題。我一直指導他的本科學位論文、碩士學位論文和博士學位論文,句法理論的基本問題一直伴隨著我們。學習期間,立坤還選修了大量計算機課程,人和機器的關系,自然語言理解的概率模型和規(guī)則模型也是我們討論的重點。這本書是立坤在博士論文基礎上擴展而成的,要解決的問題是未登錄詞的語類標注,包括語法的和語義的。這項工作的意義先得從單位和規(guī)則說起。
按照結構語言學的理論,先要確定詞,再確定詞類。詞是最小的自由形式,比如“該校、該系、該所”等分別都是詞。確定了詞以后,再根據分布確定詞類!霸撔!边@些詞都分布在通常稱為名詞的環(huán)境中:
該校有問題,需要對該校進行調查
該系有問題,需要對該系進行調查
該所有問題,需要對該所進行調查
至于“該校、該系、該所”的構詞語素“該、校、系、所”,盡管是最小的,但不自由,不是詞,因此無法根據自由分布的理論對這些語素進行語法分類,也無法根據這些語素的分布信息來確定“該校、該系、該所”這些詞的語類。概括地說,結構語言學確定“該校”的語類必須通過“該!钡姆植。
目錄
第1章 緒論1
1.1研究對象、背景、問題及應用價值1
1.2研究原則、方法與技術路線4
1.3本書的組織結構6
第2章 方法論8
2.1語言本體方面的相關研究8
2.2計算方面的相關研究14
2.3本書工作的方法論基礎18
第3章 相關資源、方法和工具23
3.1相關語言資源23
3.2條件隨機場24
3.3評測方法與評測指標24
3.4軟件工具25
第4章 現(xiàn)代漢語復合詞內部結構詞典的構造26
4.1漢語復合詞的基本構造類型26
4.2詞典構建方案27
4.3自動標注方法28
4.4結構分析方案、原則和方法30
4.5結構關系類型的判斷31
4.6成分語法類的判斷32
4.7成分語義類的判斷34
4.8計算機輔助人工標注35
第5章 未登錄詞詞類自動標注37
5.1基于內部特征的模型38
5.2可信度計算40
5.3基于外部特征的詞類標注模型41
5.4實驗結果43
5.5實驗結果分析46
第6章 基于內部特征的未登錄詞語義類自動標注47
6.1基線模型48
6.2基于內部特征的模型(模型1)50
6.3雙向平行類推規(guī)則與成對替換類推規(guī)則的分析58
6.4實驗59
第7章 結合內部與外部特征的未登錄詞語義類自動標注66
7.1結合內部特征與外部特征的模型(模型2)67
7.2實驗72
第8章 未登錄詞語義類自動標注的應用81
8.1語義詞典修正81
8.2語義詞典擴充97
第9章基于分布式詞表示的類比識別與類比挖掘99
9.1關系相似度任務與詞嵌入模型100
9.2服務于類比識別的基于依存上下文的詞語embedding表示102
9.3改進的類比識別方法:使用句法依存減少搜索空間103
9.4基于依存embedding的類比挖掘104
9.5實驗106
結語114
參考文獻116
附錄123
附錄A雙向平行類推規(guī)則示例(后字為共同成分)123
附錄B雙向平行類推規(guī)則示例(前字為共同成分)133
附錄C成對替換類推規(guī)則示例(前字為替換成分)134
附錄D成對替換類推規(guī)則示例(后字為替換成分)150
后記163
表目錄
表4.1語義詞典義項分類列表26
表4.2自動分析方法標注結果匯總30
表5.1四種特征分析方案39
表5.2低可信度序列示例41
表5.3句法模板列表(以“喜歡”為例)42
表5.4訓練數(shù)據和測試數(shù)據中的詞長分布43
表5.5基于內部特征的四種方案的實驗結果44
表5.6使用基于全局上下文的模型及規(guī)則之后的結果45
表5.7與Wu和Jiang(2000)所提方法的比較46
表6.1未登錄詞“文化部門”的訓練詞語51
表6.2序列化子模型使用的特征模板54
表6.3SSM方法字類關聯(lián)模型在《詞林》IV測試集上的結果61
表6.4SSM方法規(guī)則子模型在《詞林》IV測試集上的結果61
表6.5SSM方法混合模型在《詞林》IV測試集上的結果61
表6.6模型1類類關聯(lián)子模型在《詞林》IV集上的結果62
表6.7各種方法在《詞林》IV集上的結果比較63
表6.8SSM方法規(guī)則子模型在《HowNet》IV集上的結果63
表6.9模型1類類關聯(lián)子模型在《HowNet》IV集上的結果64
表6.10各模型在《HowNet》IV集上的結果比較64
表6.11各方法在《詞林》TSOOV集上的結果比較65
表7.1哈爾濱工業(yè)大學依存句法標注體系及其含義69
表7.2上下文詞語頻次示例70
表7.3模型2與其他方法的比較74
表7.4權重計算方法的比較76
表7.5模型2中三個選項的比較77
表8.1基于成對替換類推規(guī)則的詞典修正算法1結果分析示例84
表8.2基于雙向平行類推規(guī)則的詞典修正算法1結果分析示例86
表8.3TS1義項缺失或不當自動發(fā)現(xiàn)結果分析90
表8.4五個昀佳候選結果98
表9.《同義詞詞林》和CWS上的漢語embedding評價結果108
表9.CAQS上的漢語embedding評價結果109
表9.Google數(shù)據集上的英語embedding評價結果109
表9.NG2、NG5、DEP相似詞示例110
表9.類比挖掘實驗結果112
圖目錄
圖5.1特征模板40
圖5.2投票標準42
圖6.1模型1步驟說明57
圖7.1依存句法分析示例70
圖7.2權重計算方法71
圖7.3模型2F值隨K值變化曲線(0<K<80)76
圖9.1依存句法樹示例103
圖9.2基于自舉的類比挖掘算法105