隨著計算機技術的發(fā)展,語料庫在語言本體與教學研究中發(fā)揮著越來越重要的作用,同時在大數(shù)據(jù)的背景下,最新的信息技術大大助力了語料庫的建設和應用。漢語語料庫的建設,近些年國內外都有較大的發(fā)展,BCC 漢語語料庫是其中使用比較多的之一,對漢語本體研究和與語言教學也發(fā)揮了重要作用。本書對BCC 漢語語料庫的特點、建設過程、檢索功能、查詢語言、編程語言以及對如何使用自定義BCC 語料庫進行介紹,以期更好地讓人理解,為語言本體與教學研究服務。
本書適合計算語言學與語言學本體研究的學者當作教材,也可作為高等院校人工智能相關的專業(yè)師生的教輔參考書。同時,也適合對語料庫建設與使用感興趣的相關人員閱讀。
一、整體亮點
1.稀缺性
圖書市場中關于語料庫建設與應用的書籍比較稀缺,可以充分利用稀缺性的特點切入市場。
2.專業(yè)性
本書作者為北京語言大學信息科學學院院長,對該領域了解深厚,從業(yè)研究經驗豐富。
3.實用性
本書從需求分析出發(fā),介紹BCC語料庫的構建過程與使用方法,匯集了語料庫應用在語言學各個場景的實際例子,使讀者較為容易地舉一反三,實現(xiàn)不同的檢索需求,具有較高的參考價值。
4.原創(chuàng)性
本書是作者在實踐工作中的思考與總結的結晶。
二、內容特色
1.知識性
本書涉及語料庫建設的技術,涵蓋了語料庫的建設過程中的多項新技術。
2.系統(tǒng)性
本書涵蓋了語料庫的構建與應用兩個方面,系統(tǒng)介紹語料庫構建與使用的各環(huán)節(jié)。
3.廣泛性
本書從如何構建與使用BCC語料庫入手,涉及了語料庫的建設與使用方法的目前認知的全部領域。
荀恩東
北京語言大學信息科學學院院長,教授,博士生導師。漢語國際教育技術研發(fā)中心主任 ,教育部新世紀優(yōu)秀人才,中國計算機學會名詞專委會副主任,中國標準化研究院特聘研究員。1999畢業(yè)于哈爾濱工業(yè)大學計算機應用與科學系,獲得計算機應用專業(yè)博士學位。1999年~2001年微軟亞洲研究院副研究員。2001年~2003年通過"香港引入優(yōu)秀人才計劃",在香港科技大學工作。發(fā)表研究論文數(shù)十篇,主持多項國家863計劃和國家自然科學基金項目,承擔多項部委和公司合作的項目。目前研究領域包括:自然語言處理、計算機輔助語言學習技術研究和開發(fā)工作;非母語作文計算機水平自動評判;基于互聯(lián)網多元信息作文輔助寫作;漢字字形結構評判與輔助漢字書寫練習研究;機器翻譯。
目錄
第 一章 緒論 4
1.1 語料庫簡介 4
1.1.1 基本特征 4
1.1.2 發(fā)展歷程 6
1.2 語料庫類型 7
1.2.1 按語料模態(tài)分類 7
1.2.2 按語料語體分類 8
1.2.3 按語料狀態(tài)分類 8
1.2.4 按語料時間分類 8
1.2.5 按語料加工程度分類 9
1.2.6 按語料組織形式分類 9
1.2.7 按語料庫用途分類 10
1.3 語料庫技術 10
1.4 語料庫應用 12
1.4.1 服務對象 12
1.4.2 應用方式 14
1.5 BCC語料庫 15
1.6 本書章節(jié)介紹 16
第二章 BCC語料庫的建設 18
2.1 概述 18
2.2 BCC語料庫數(shù)據(jù) 21
2.2.1 數(shù)據(jù)概況 21
2.2.2 數(shù)據(jù)加工 22
2.3 BCC語料庫系統(tǒng) 34
2.3.1 構建索引 35
2.3.2 檢索語言 36
2.4 BCC語料庫服務 39
2.4.1 服務對象 39
2.4.2 服務方式 40
2.4.3 使用方式 43
第三章 BCC語料庫交互式查詢語言 46
3.1 概述 46
3.2 交互式查詢語言設計 46
3.2.1 序列語料的檢索式組成 47
3.2.2 結構語料的檢索式組成 49
3.3 交互式查詢語言功能 51
3.3.1 基本檢索 51
3.3.2 高級檢索 59
第四章 BCC語料庫交互式查詢語言應用 65
4.1 語素檢索 65
4.2 詞語檢索 67
4.2.1 基礎檢索 67
4.2.2 合成詞 71
4.2.3 離合詞 78
4.3 短語檢索 81
4.4 構式檢索 85
4.4.1 無變項構式的檢索 85
4.4.2 有變項構式的檢索 86
4.5 句子檢索 90
4.5.1 單句檢索 90
4.5.2 復句檢索 94
第五章 BCC語料庫腳本式編程語言 96
5.1 概述 96
5.2 檢索原理 96
5.2.1 檢索框架 97
5.2.2 檢索單元 100
5.3 BCC腳本式編程語言設計 110
5.3.1 基本查詢 112
5.3.2 組合查詢 115
5.3.3 條件約束 122
5.3.4 功能操作 131
5.3.5 輸出操作 137
5.4 BCC腳本式編程語言功能 141
5.4.1 基本檢索 142
5.4.2 組合檢索 146
5.4.3 高級檢索 151
第六章 BCC語料庫腳本式編程語言應用 157
6.1 概述 157
6.2 定中結構的抽取 157
6.2.1 限定詞性序列的檢索 157
6.2.2 限定結構標記的檢索 161
6.2.3 限定詞語范圍的檢索 163
6.2.4 限定語料特征的檢索 164
6.2.5 限定檢索基點的檢索 167
6.3 小結 168
第七章 個性化語料庫的構建 170
7.1 數(shù)據(jù)準備 170
7.1.1 數(shù)據(jù)信息 170
7.1.2 數(shù)據(jù)預處理 171
7.2 索引構建 182
7.2.1 硬件基礎 182
7.2.2 預備文件 185
7.2.3 構建索引 189
7.3 語料庫使用 196
7.3.1 啟動服務 196
7.3.2 網絡使用 196
7.3.3 離線使用 204
第八章 BCC語料庫在線網站 208
8.1 概述 208
8.2 基礎檢索 208
8.2.1 檢索步驟 208
8.2.2 結果處理 210
8.3 歷時檢索 213
8.3.1 單檢索式 213
8.3.2 雙檢索式 214
8.4 對比檢索 215
8.4.1 單檢索式 215
8.4.2 雙檢索式 216
8.5 自選范圍檢索 217
8.6 詞典 218
8.6.1 簡介 218
8.6.2 查詢方式 221
8.6.3 查詢結果 223
參考文獻 228