《藏文文本自動(dòng)處理方法研究(第二版)》總共分四個(gè)部分,第一部分以藏文字處理為研究對(duì)象,討論了藏文排序方法、藏文音節(jié)規(guī)則、自動(dòng)拼寫(xiě)算法和藏文音節(jié)構(gòu)件識(shí)別算法的內(nèi)容;第二部分以藏文詞處理為研究對(duì)象,討論了藏文停用詞自動(dòng)處理方法、藏文人名識(shí)別方法,研究了條件隨機(jī)場(chǎng)(CRF)和深度學(xué)習(xí)的藏文人名識(shí)別技術(shù);第三部分以藏文自動(dòng)校對(duì)為研究對(duì)象,討論了基于音節(jié)規(guī)則的藏文拼寫(xiě)檢查算法、藏文自動(dòng)校對(duì)系統(tǒng)框架和接續(xù)關(guān)系檢查算法;第四部分以藏文句子和語(yǔ)義處理方法為研究對(duì)象,討論了論元角色的藏語(yǔ)語(yǔ)義角色標(biāo)注研究、認(rèn)識(shí)自然語(yǔ)言處理和文本自動(dòng)處理技術(shù)比較。
《藏文文本自動(dòng)處理方法研究(第二版)》可以作為高等院校藏文信息處理技術(shù)、計(jì)算機(jī)科學(xué)與技術(shù)、藏語(yǔ)言文學(xué)等相關(guān)專業(yè)研究生的參考書(shū),也可以作為從事藏文信息處理技術(shù)、藏語(yǔ)計(jì)算語(yǔ)言學(xué)、藏語(yǔ)言文學(xué)研究相關(guān)人員的參考書(shū)。
藏文作為人類語(yǔ)言的一個(gè)典型例子,具有人類共同的思維方式和語(yǔ)言組織形式,具有自身悠久的歷史和完備的理論體系,同樣受到現(xiàn)代科學(xué)技術(shù)進(jìn)步的影響,也不斷適應(yīng)現(xiàn)代社會(huì)日新月異的變化;藏文雖然是一個(gè)小語(yǔ)種,同樣受到自然語(yǔ)言處理領(lǐng)域研究者的關(guān)注。自計(jì)算機(jī)誕生之日起,人們就開(kāi)始了藏文在計(jì)算機(jī)上的表示、顯示、輸入和輸出的研究。目前,人們開(kāi)始探索藏文自然語(yǔ)言處理問(wèn)題,以不斷提升藏文自身適應(yīng)現(xiàn)代社會(huì)的能力。
隨著藏文信息技術(shù)的不斷發(fā)展,經(jīng)過(guò)科研院所、高等學(xué)校和企業(yè)眾多研究者的努力,藏文信息技術(shù)研究已經(jīng)取得了豐碩成果,使得藏文字處理技術(shù)趨于成熟。隨著互聯(lián)網(wǎng)的普及和大數(shù)據(jù)時(shí)代的到來(lái),藏文電子資源數(shù)據(jù)得到了迅速增長(zhǎng),這些數(shù)據(jù)成為藏文信息處理進(jìn)一步發(fā)展的基石。由此,研究人員廣泛開(kāi)展藏文字處理、詞處理、短語(yǔ)處理和語(yǔ)句處理等相關(guān)研究工作。目前,在藏文字處理、詞處理、短語(yǔ)處理和語(yǔ)句處理等領(lǐng)域上取得了不少成績(jī),但也存在很多尚未解決的問(wèn)題。本書(shū)從目前亟待解決的幾個(gè)關(guān)鍵問(wèn)題出發(fā),研究其解決方案和相應(yīng)的實(shí)現(xiàn)算法,這也是本人從事藏文信息處理技術(shù)研究的相關(guān)成果,大部分成果已經(jīng)發(fā)表在國(guó)內(nèi)中文核心期刊上。在本書(shū)編寫(xiě)過(guò)程中,作者得到了多方的大力支持。在此,感謝我的導(dǎo)師李天瑞教授,西藏大學(xué)歐珠教授、格桑多吉教授、仁青諾布副教授等;感謝我的學(xué)生鄭亞楠、侯恩帥、尹良成、李震松、劉賽虎、羅之翔、尼瑪?shù)鹊男燎谂。另外,本?shū)還得到了“藏語(yǔ)文傳承與發(fā)展之藏漢雙向機(jī)器翻譯平臺(tái)建設(shè)(藏財(cái)預(yù)指[2020]1號(hào))項(xiàng)目”“西藏大學(xué)珠峰學(xué)者計(jì)劃.高原學(xué)者.珠杰(藏財(cái)教指[2018]54號(hào))項(xiàng)目”的資助。
本書(shū)總共分四個(gè)部分,第一部分以藏文字處理為研究對(duì)象,討論了藏文排序方法、藏文音節(jié)規(guī)則、自動(dòng)拼寫(xiě)算法和藏文音節(jié)構(gòu)件識(shí)別算法的內(nèi)容;第二部分以藏文詞處理為研究對(duì)象,討論了藏文停用詞自動(dòng)處理方法、藏文人名識(shí)別方法,研究了條件隨機(jī)場(chǎng)(CRF)和深度學(xué)習(xí)的藏文人名識(shí)別技術(shù);第三部分以藏文自動(dòng)校對(duì)為研究對(duì)象,討論了基于音節(jié)規(guī)則的藏文拼寫(xiě)檢查算法、藏文自動(dòng)校對(duì)系統(tǒng)框架和接續(xù)關(guān)系檢查算法;第四部分以藏文句子和語(yǔ)義處理方法為研究對(duì)象,討論了論元角色的藏語(yǔ)語(yǔ)義角色標(biāo)注研究、認(rèn)識(shí)自然語(yǔ)言處理和文本自動(dòng)處理技術(shù)比較。
本書(shū)可以作為高等院校藏文信息處理技術(shù)、計(jì)算機(jī)科學(xué)與技術(shù)、藏語(yǔ)言文學(xué)等相關(guān)專業(yè)研究生的參考書(shū),也可以作為從事藏文信息處理技術(shù)、藏語(yǔ)計(jì)算語(yǔ)言學(xué)、藏語(yǔ)言文學(xué)研究相關(guān)人員的參考書(shū)。
由于本人水平有限,加之時(shí)間倉(cāng)促,書(shū)中難免存在疏漏和不妥之處,懇請(qǐng)廣大讀者批評(píng)指正。
第一篇 藏文字處理技術(shù)
第一章 藏文基礎(chǔ)理論
第一節(jié) 藏文字符
第二節(jié) 藏文音節(jié)
第三節(jié) 藏文詞語(yǔ)
第四節(jié) 藏語(yǔ)句子
第二章 基于藏文編碼GB的藏文排序方法研究
第一節(jié) 概述
第二節(jié) 藏文字排序規(guī)則
第三節(jié) 藏文字排序算法
第四節(jié) 結(jié)論
第三章 藏文音節(jié)規(guī)則庫(kù)的建立與應(yīng)用分析
第一節(jié) 概述
第二節(jié) 藏文的結(jié)構(gòu)
第三節(jié) 藏文規(guī)則庫(kù)的建立
第四節(jié) 規(guī)則庫(kù)的應(yīng)用
第五節(jié) 結(jié)論與展望
第四章 藏文音節(jié)規(guī)則模型及應(yīng)用
第一節(jié) 概述
第二節(jié) 藏文音節(jié)結(jié)構(gòu)
第三節(jié) 藏文音節(jié)規(guī)則模型
第四節(jié) 規(guī)則方法的應(yīng)用研究
第五節(jié) 結(jié)論與展望
第五章 藏文音節(jié)構(gòu)件分解及類型識(shí)別算法
第一節(jié) 概述
第二節(jié) 相關(guān)研究工作
第三節(jié) 音節(jié)構(gòu)件識(shí)別算法
第四節(jié) 實(shí)驗(yàn)
第五節(jié) 結(jié)論與展望
第二篇 藏文詞處理方法
第六章 藏文停用詞選取與自動(dòng)處理方法研究
第一節(jié) 概述
第二節(jié) 相關(guān)研究工作
第三節(jié) 藏文停用詞選取方法
第四節(jié) 停用詞處理實(shí)驗(yàn)
第五節(jié) 結(jié)論與展望
第七章 基于詞向量的藏文詞性標(biāo)注方法研究
第一節(jié) 概述
第二節(jié) 相關(guān)研究工作
第三節(jié) 詞性標(biāo)注算法
第四節(jié) 實(shí)驗(yàn)及數(shù)據(jù)分析
第五節(jié) 結(jié)論與展望
第八章 基于條件隨機(jī)場(chǎng)的藏文人名識(shí)別技術(shù)研究
第一節(jié) 概述
第二節(jié) 相關(guān)研究工作
第三節(jié) 藏文人名特征
第四節(jié) 模型及人名識(shí)別
第五節(jié) 實(shí)驗(yàn)
第六節(jié) 結(jié)論與展望
第九章 基于深度學(xué)習(xí)模型的藏文人名識(shí)別方法研究
第一節(jié) 概述
第二節(jié) 相關(guān)研究工作
第三節(jié) 深度學(xué)習(xí)模型
第四節(jié) 訓(xùn)練模型
第五節(jié) 詞向量訓(xùn)練
第六節(jié) 實(shí)驗(yàn)及數(shù)據(jù)分析
第三篇 藏文自動(dòng)校對(duì)方法
第十章 TSRM藏文拼寫(xiě)檢查算法
第一節(jié) 概述
第二節(jié) 藏文音節(jié)規(guī)則模型
第三節(jié) 拼寫(xiě)檢查算法
第四節(jié) 實(shí)驗(yàn)
……
第四篇 藏文句子和語(yǔ)義處理方法
附錄