《HNC與語言學(xué)研究(第4輯)(2009)》是第四屆HNC與語言學(xué)研究學(xué)術(shù)研討會(huì)的論文集,所收錄的論文展現(xiàn)了HNC(HierarchicalNetWworkofConcepts,概念層次網(wǎng)絡(luò))理論、語言學(xué)和語言信息處理界近些年來研究和應(yīng)用研發(fā)的若干新成果!禜NC與語言學(xué)研究(第4輯)(2009)》的內(nèi)容分為6個(gè)部分:(1)基礎(chǔ)理論和語言本體研究;(2)知識(shí)庫(kù)資源建設(shè)及其應(yīng)用;(3)基礎(chǔ)技術(shù)研究與開發(fā);(4)機(jī)器翻譯;(5)信息檢索和抽。唬6)其他應(yīng)用技術(shù)和系統(tǒng)研發(fā)。《HNC與語言學(xué)研究(第4輯)(2009)》的讀者對(duì)象包括自然語言處理、語言學(xué)、人工智能和認(rèn)知科學(xué)等領(lǐng)域的研究者和開發(fā)者。
本書是第四屆“HNC與語言學(xué)研究學(xué)術(shù)研討會(huì)”的論文集。
HNC是概念層次網(wǎng)絡(luò)理論的簡(jiǎn)稱,該理論由中國(guó)科學(xué)院聲學(xué)研究所黃曾陽先生創(chuàng)立,它的基本特征是通過構(gòu)建語言概念空間來探索和模擬大腦的語言理解過程。
“HNC與語言學(xué)研究學(xué)術(shù)研討會(huì)”(簡(jiǎn)稱“HNC研討會(huì)”)最早由語言學(xué)家邢福義先生和黃曾陽先生倡議,它有三個(gè)基本宗旨:一是搭建語言信息處理界的學(xué)術(shù)交流平臺(tái),以碰撞促發(fā)展;二是創(chuàng)造有利于原創(chuàng)性新思想發(fā)展的學(xué)術(shù)環(huán)境,鼓勵(lì)和發(fā)揚(yáng)創(chuàng)新;三是理論探索與應(yīng)用實(shí)踐并重,促進(jìn)學(xué)術(shù)界和產(chǎn)業(yè)界的溝通與互動(dòng)。第一屆HNC研討會(huì)于2001年4月在華中師范大學(xué)舉行,第二屆于2003年9月在中國(guó)科學(xué)院聲學(xué)研究所舉行,第三屆于2005年12月在北京師范大學(xué)舉行。
第四屆HNC研討會(huì)于2009年11月14日至15日在北京師范大學(xué)舉行,本屆研討會(huì)留給與會(huì)者的感受可以概括為四點(diǎn):第一,HNC的基礎(chǔ)研究和應(yīng)用開發(fā)與四年前相比又取得了很大的進(jìn)展,HNC團(tuán)隊(duì)進(jìn)一步壯大;第二,學(xué)術(shù)界和產(chǎn)業(yè)界對(duì)HNC理論與技術(shù)有了更多的關(guān)注和了解;第三,中文信息處理的各個(gè)方面都在不斷向前發(fā)展,新的思想、理論和技術(shù)不斷產(chǎn)生,各個(gè)流派之間的交流不斷擴(kuò)大和加深;第四,論文作者大多是年輕的生力軍,說明我國(guó)語言信息處理的發(fā)展后繼有人。
前三屆HNC研討會(huì)的論文集,書名分別為《HNC與語言學(xué)研究》《第二屆HNC與語言學(xué)研討會(huì)論文集》《中文信息處理的探索與實(shí)踐》,本屆HNC研討會(huì)論文集的書名定為《HNC與語言學(xué)研究(第4輯)》,以后將固定采用這一名稱,只是改變括號(hào)中的數(shù)字,以與研討會(huì)的屆數(shù)對(duì)應(yīng)。
本書收錄了第四屆HNC研討會(huì)上宣讀的74篇論文,分為6個(gè)部分:
1.基礎(chǔ)理論和語言本體研究(14篇)
2.知識(shí)庫(kù)資源建設(shè)及其應(yīng)用(12篇)
3.基礎(chǔ)技術(shù)研究與開發(fā)(16篇)
4.應(yīng)用研發(fā)之一:機(jī)器翻譯(14篇)
5.應(yīng)用研發(fā)之二:信息檢索和抽取(11篇)
6.其他應(yīng)用技術(shù)和系統(tǒng)研發(fā)(7篇)
其中第四部分集中反映了HNC的最新進(jìn)展,即在機(jī)器翻譯方面的基礎(chǔ)研究和應(yīng)用實(shí)踐。
本書出版時(shí)間比較倉(cāng)促,編者水平也有限,如有疏漏和不妥之處,懇請(qǐng)讀者和論文作者批評(píng)指正。
第一部分 基礎(chǔ)理論和語言本體研究
把文字?jǐn)?shù)據(jù)變成文字記憶
關(guān)于漢語語義概念的一點(diǎn)思考
概念基元空間的下沉及與詞義結(jié)構(gòu)的語言對(duì)接
現(xiàn)代漢語空間短語的基本類型
組織名在主流媒體上的分布信息及其價(jià)值
從HNC看“從到”的語義角色及其判定
HNC與本體概念網(wǎng)的比較研究
面向漢語框架語義知識(shí)庫(kù)的動(dòng)詞“感覺”分析
面向自然語言處理的人機(jī)語義研究
基于HNC理論的“是的”結(jié)構(gòu)研究及教學(xué)
談HNC的知識(shí)表示方法
面向自然語言處理的語言本體研究
標(biāo)點(diǎn)句的獨(dú)立性判斷
網(wǎng)絡(luò)流行語的敘事特點(diǎn)及功能
第二部分 知識(shí)庫(kù)資源建設(shè)及其應(yīng)用
語義互聯(lián)網(wǎng)與《新編同義詞詞林》
事件描述塊句法語義標(biāo)注庫(kù)的構(gòu)建
釋雅例句檢索工具的需求分析
動(dòng)詞詞典在漢語詞匯教學(xué)中的應(yīng)用
略論基于HNC的學(xué)習(xí)型電子詞典編纂研究
HNC語義標(biāo)注語料庫(kù)查詢工具的用戶需求
句群處理突破的關(guān)鍵:HNC領(lǐng)域句類知識(shí)庫(kù)
漢英雙語多元邏輯組合標(biāo)注的基本內(nèi)容
法治活動(dòng)的領(lǐng)域句類表示式和知識(shí)描述
基于本體的多媒體教學(xué)資源管理及檢索研究
語言資源建設(shè)的理論與實(shí)踐初探
跨越語句理解的知識(shí)(庫(kù))建設(shè)
第三部分 基礎(chǔ)技術(shù)研究與開發(fā)
無頭迭句與花園幽徑句的辨識(shí)與處理
英語特征語義塊構(gòu)成分析及計(jì)算機(jī)處理
結(jié)合領(lǐng)域句類知識(shí)的省略恢復(fù)方法
面向大句處理的句類分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
英語非限定形態(tài)動(dòng)詞分析處理
憲法句間回指模糊的消解研究
漢語理解處理中的動(dòng)態(tài)詞及其組合模式
句處理與句群處理
利用讀音信息的詞語切分處理
現(xiàn)代漢語文本中四字語的識(shí)別
英語主輔語義塊辨識(shí)初探
中文機(jī)構(gòu)名識(shí)別需要使用的知識(shí)資源
現(xiàn)代漢語數(shù)量短語及其自動(dòng)識(shí)別的研究
HNC符號(hào)的解析及應(yīng)用
中文信息處理中兼類詞研究困難的原因
HNC理論的句類假設(shè)檢驗(yàn)知識(shí)與現(xiàn)有句類分析系統(tǒng)E語義塊識(shí)別的檢測(cè)分析
第四部分 應(yīng)用研發(fā)之一:機(jī)器翻譯
形如獨(dú)立小句的原型句蛻之漢英變換
從HNC機(jī)器翻譯評(píng)測(cè)看機(jī)器翻譯發(fā)展
從一項(xiàng)實(shí)證研究看機(jī)器翻譯的路線之爭(zhēng)
面向漢英機(jī)器翻譯的格式自轉(zhuǎn)換研究
關(guān)聯(lián)于是否判斷句的迭句轉(zhuǎn)換研究——以漢英機(jī)器翻譯為視角
英語方式動(dòng)詞在英漢機(jī)器翻譯中的處理分析
漢英機(jī)器翻譯中的輔塊序位研究
英漢機(jī)器翻譯中“0F”結(jié)構(gòu)的處理
基于HNC理論的時(shí)間輔語義塊的漢英機(jī)器翻譯初探
塊擴(kuò)句的漢英句類及句式轉(zhuǎn)換
漢語小句向英語輔塊的變換研究
漢英機(jī)器翻譯中“以為”句式的理解處理
統(tǒng)計(jì)機(jī)器翻譯的句法調(diào)序與HNC句式轉(zhuǎn)換
簡(jiǎn)析機(jī)器翻譯軟件的需求
第五部分 應(yīng)用研發(fā)之二:信息檢索和抽取
中文文本中企業(yè)并購(gòu)信息的自動(dòng)抽取
農(nóng)業(yè)信息檢索中含單動(dòng)詞和雙名詞的詞語串之語義理解策略
針對(duì)HNC理論的特殊語序結(jié)構(gòu)的抽取策略——基于足球比賽報(bào)道新聞文本的抽取任務(wù)
求職簡(jiǎn)歷信息的自動(dòng)抽取
基于規(guī)則的人物關(guān)系抽取所需的語言知識(shí)研究
搜索引擎的個(gè)性化和智能化
農(nóng)業(yè)信息智能檢索的知識(shí)需求分析
基于HNC理論的精確檢索方法的設(shè)計(jì)與實(shí)現(xiàn)
中國(guó)奧運(yùn)冠軍動(dòng)態(tài)信息抽取技術(shù)研究
專利文獻(xiàn)檢索再分類的語言知識(shí)
網(wǎng)絡(luò)文本中對(duì)企業(yè)產(chǎn)品和服務(wù)評(píng)價(jià)傾向的表達(dá)方式分析
第六部分其他應(yīng)用技術(shù)和系統(tǒng)研發(fā)
基于HNC的網(wǎng)絡(luò)信息輿情分析系統(tǒng)應(yīng)用
HNC知識(shí)檢索系統(tǒng)在專利文獻(xiàn)檢索中的應(yīng)用
HNC在農(nóng)業(yè)垂直搜索中的應(yīng)用
HNC在Web日志管理中的應(yīng)用探討
HNC在網(wǎng)站客服系統(tǒng)中的應(yīng)用探討
基于向量空間模型的話題主動(dòng)發(fā)現(xiàn)和跟蹤
漢語網(wǎng)絡(luò)詞典的現(xiàn)狀和發(fā)展方向淺析
大腦的軟件似乎也可以同計(jì)算機(jī)作某種類比,劃分為自我操作和對(duì)外服務(wù)兩個(gè)側(cè)面。前者密切聯(lián)系于CPU+MEM,后者密切聯(lián)系于(I/O,MEM,CPU)。
大腦的操作軟件有什么不同于計(jì)算機(jī)的本質(zhì)區(qū)別?
HNC的答案是:大腦操作軟件存在著智能與智慧的基本差異。這里不介紹智能與智慧的定義及其HNC符號(hào)表示式,只用一個(gè)例子來表明兩者之間的巨大不同。柏拉圖與孔夫子、愷撒與拿破侖都智力超群,但兩位夫子和兩位將軍的具體智力表現(xiàn)可大不相同,能不能說“兩位夫子智慧超群而智能平平,兩位將軍智能超群而智慧平平”呢?好像是可以這么說的,可見,智力存在著智能與智慧的本質(zhì)區(qū)分?追蜃诱怯捎谥悄芷狡蕉谧罱隽恕翱鬃樱瑔始胰钡拿},這命題受到許多學(xué)者的盛贊。但問題不在于盛贊或反對(duì),而在于對(duì)先哲的基本態(tài)度。柏拉圖經(jīng)歷過與孔子極為類似的境遇,但希臘人和西方人絕不會(huì)把喪家犬之類的侮辱性描述加到柏拉圖身上。尼采先生確實(shí)喊出過“上帝死了”,但絕不會(huì)超出這個(gè)限度而高喊“打倒上帝”。
數(shù)據(jù)和記憶是兩種性質(zhì)截然不同的信息載體。數(shù)據(jù)僅涉及信息的量與形式,不涉及信息的質(zhì)與內(nèi)容,無關(guān)于智能與智慧的差異;記憶則不僅涉及信息的量與形式,更涉及信息的質(zhì)與內(nèi)容,有關(guān)于智能與智慧的差異?梢,記憶所要求的信息形態(tài)轉(zhuǎn)換,其難度必遠(yuǎn)大于數(shù)據(jù)。作為一項(xiàng)科技課題,“高級(jí)信息形態(tài)轉(zhuǎn)換”的命運(yùn)非常奇特,很像那位出塞前的王昭君。
1.4 準(zhǔn)備迎娶“昭君”
可是,命運(yùn)類似于王昭君的“高級(jí)信息形態(tài)轉(zhuǎn)換”并不是“昭君”,而是“昭君”的未來夫婿。
上面說到的那位數(shù)字化美人才是“昭君”,她還沒有找到如意郎君。上帝似乎在刻意安排一場(chǎng)年齡差距破歷史紀(jì)錄的姐弟戀。那位美人的芳齡已經(jīng)超過了30歲,可是那位未來的新郎還沒有出世。他以胎兒的形態(tài)已經(jīng)存在多年了,但還沒有降生。最近的檢查表明,胎兒發(fā)育正常,主要問題是母親營(yíng)養(yǎng)不良。預(yù)產(chǎn)期還沒有完全確定,樂觀的估計(jì)是2012年,在座諸君應(yīng)該都能趕上。不過,能在這個(gè)研討會(huì)上想象一下從“昭君出塞”到“迎娶昭君”的歷史巨變,已經(jīng)是足夠欣慰的事了。