基于HNC的現(xiàn)代漢語句子級語義標注語料庫的研究和建立
定 價:55 元
- 作者:劉智穎
- 出版時間:2015/2/1
- ISBN:9787516155769
- 出 版 社:中國社會科學出版社
- 中圖法分類:H1
- 頁碼:
- 紙張:膠版紙
- 版次:1
- 開本:16K
《基于HNC的現(xiàn)代漢語句子級語義標注語料庫的研究和建立》針對自然語言處理資源建設方面的需求,從語義的角度、句子的層面研究建立句子級語義標注語料庫。
《基于HNC的現(xiàn)代漢語句子級語義標注語料庫的研究和建立》以HNC(概念層次網(wǎng)絡)理論句類體系為基礎,探討了句子級語義標注語料庫的標注內容、標注方法和標注難點,確定了XML的標注規(guī)范,設計了語料庫的查詢工具。
《基于HNC的現(xiàn)代漢語句子級語義標注語料庫的研究和建立》是HNC理論在資源建設方面的研究與發(fā)展。該語料庫的建設與研究不僅對于計算機理解語義具有重要意義,而且對語言學工作者也具有一定的參考價值。
劉智穎,2010年畢業(yè)于北京師范大學語言學及應用語言學專業(yè),獲博士學位,F(xiàn)任北京師范大學中文信息處理研究所講師,碩士生導師。主要研究方向為中文信息處理。在國內學術期刊及自然語言處理的國際會議發(fā)表論文20余篇,參編信息處理用詞典一部。曾主持國家“865”項目“中文信息處理應用基礎研究”的“句子級語義標注的現(xiàn)代漢語語料庫”課題,并作為主要研究人員參與了多項國家865課題和國家科技支撐計劃課題的研究。
第一章 緒論
第一節(jié) 中文信息處理的研究熱點
第二節(jié) 基于HNC的現(xiàn)代漢語句子級語義標注語料庫
第三節(jié) 本書的研究內容
一 標注項
二 標注方式
三 管理工具功能設計
第四節(jié) 已有的研究
一 現(xiàn)代漢語詞義標注語料庫
二 漢語框架語義標注語料庫
三 語義結構標注語料庫
第五節(jié) 本書的結構安排
第二章 HNC理論及其句類思想
第一節(jié) HNC理論簡介
第二節(jié) HNC的句類思想
第三節(jié) 句類及句類知識
一 基本句類
二 混合句類
三 復合句類
第三章 HNC語義標注語料庫的設計
第一節(jié) 語料的采集
第二節(jié) 語料的加工
一 標注規(guī)模
二 標注特點
三 標注形式
第四章 HNC語義標注語料庫的標注規(guī)范
第一節(jié) XML語言介紹
一 XMlL的歷史
二 XML的內容
三 XML的特點和優(yōu)點
第二節(jié) HNC語義標注語料庫的XML標注規(guī)范
一 XML文檔
二 Schema模式
三 XSL轉換
第五章 HNC語義標注語料庫的標注
第一節(jié) 標注內容
一 篇頭信息
二 篇體信息
第二節(jié) 標注難點
一 語義塊核心要素的部分缺省
二 包裝品與分離語
三 “的”字短語
四 “所”字結構
五 基于全句理解的句類
第六章 語料標注工具的設計與使用
第一節(jié) TXTxML文檔的轉換
第二節(jié) XMLspy標注工具的使用
一 XMLSpy工具介紹
二 語料的標注
三 檢查與驗證
第七章 HNC語義標注語料庫查詢工具
第一節(jié) 查詢工具的特點
一 快捷的查詢速度
二 友好的查詢界面
三 強大的查詢功能
第二節(jié) 查詢工具的功能設計
一 數(shù)據(jù)的存儲
二 數(shù)據(jù)庫的操作
三 語料查詢
第八章 HNC語義標注語料庫的應用
第一節(jié) 在語言本體研究方面的應用
第二節(jié) 在中文信息處理方面的應用
第三節(jié) 在語言教學方面的應用
第四節(jié) 結語
附錄
附錄1 HNC句子級語義標注語料庫的xML規(guī)范
附錄2 HNC句子級語義標注語料庫標注文檔示例
參考文獻
后記
《基于HNC的現(xiàn)代漢語句子級語義標注語料庫的研究和建立》:
復雜句分為共享句與無共享句以及介于兩者之間的半共享旬三種類型。共享句是指分句間存在廣義對象語義塊整體共享現(xiàn)象的復句。《HNC(概念層次網(wǎng)絡)理論》中定義的復合句實際上就是共享句。半共享句是指分句問存在局部共享(即要素共享)現(xiàn)象的復句。無共享句是指分句間不存在共享現(xiàn)象的復句。共享句中有兩個特殊子類:一是迭句(居后句子的第一個廣義對象語義塊共用居前句子的第一個廣義對象語義塊),二是鏈句(居后句子的第一個廣義對象語義塊共用居前句子的最后一個廣義對象語義塊)。(池毓煥,2005)
我們用來標注復雜句。復雜句的類型信息我們用內所包含的屬性type進行標記,type的取值表示復雜句的各個類型。取值為“1”表示無共享句,即分句的各語義塊之間不存在共享;取值為“2”表示迭句;取值為“3”表示鏈句;取值為“4”表示復雜共享句,指分句內的某個整語義塊共享分句內或分句外多個語義塊或半個語義塊,或分句內的某半個語義塊共享分句內或分句外多個語義塊的情況,因具體語義塊共享情況比較復雜,故稱為復雜共享句,《基于HNC的現(xiàn)代漢語句子級語義標注語料庫的研究和建立》對其內部的各種復雜共享情況暫不進行分類表示;取值為“5”表示無共享句,指分句內的語義塊完整,不存在共享其他語義塊的情況。復雜句元素本身不提供句類信息,句類信息蘊含在其包含的(sentence)子元素里面。
除了子元素外,復雜句下面還包含、和元素。元素用來標注關聯(lián)詞語信息,元素用來標注獨立語信息,元素用來標注輔塊信息,復雜句下面的輔塊是復雜句所包含的分句的共同輔塊,而非某一個特定分句的輔塊,特定分句的輔塊信息會標注在子元素里面。
元素既可以表示簡單句,也可以表示復雜句的分句。主要包含下列元素:廣義對象語義塊、特征語義塊、輔語義塊、關聯(lián)語、獨立語、分離語。其中語義塊是句子構成的基本單位。分離語是指從語義塊中分離出來的部分。HNC認為,語義塊存在構成和分離的現(xiàn)象,因此需要對分離部分做出語義標記,分離語是HNC特有的語義標注信息。
……