基于Python的語料庫數(shù)據(jù)處理
本書以語料庫語言學研究實踐為導向,介紹Python編程基礎知識。第1章為Python語言簡介,第2章至第6章由易到難、循序漸進介紹Python語言的基本數(shù)據(jù)類型和語法。第7章和第8章提供文本處理的個案實例。全書內(nèi)容涵蓋語料庫語言學研究中常用的文本處理模式,讀者可以通過學習本書掌握語料庫語言學研究中的Python編程技巧,以便更深入地進行研究。另外,本書提供大量語料庫語言學文本處理所需的Python代碼,讀者可以直接將這些代碼(或將這些代碼稍加改動)用于自己的研究中。
更多科學出版社服務,請掃碼獲取。
目錄
文科生的編程自白
第1章 引言 1
1.1 Python語言與語料庫數(shù)據(jù)處理 1
1.2 安裝Python 3
1.3 Python代碼的編寫和運行 5
1.4 PyCharm的安裝和使用 6
1.5 “Hello world!” 8
1.6 本書結構 10
第2章 數(shù)值和字符串 13
2.1 數(shù)值 13
2.2 常用數(shù)值運算符 14
2.3 常用數(shù)值函數(shù) 16
2.4 數(shù)值計算示例 20
2.5 數(shù)值計算練習 24
2.6 字符串 25
2.7 字符串運算 28
2.8 字符串與數(shù)值的互換 29
2.9 常用字符串函數(shù) 29
2.10 練習 32
第3章 條件與循環(huán) 33
3.1 條件判斷 33
3.2 while循環(huán) 39
3.3 for in循環(huán) 39
3.4 讀寫單個文本 41
3.5 練習 44
第4章 列表和元組 46
4.1 列表 46
4.2 列表與字符串的相互轉換 47
4.3 常用列表函數(shù) 49
4.4 列表相關文本處理實例 56
4.5 元組 59
4.6 練習 60
第5章 正則表達式 62
5.1 正則表達式的概念 62
5.2 普通字符 64
5.3 元字符 64
5.4 匹配零個或多個字符 66
5.5 分組 72
5.6 元字符的轉義 74
5.7 換行符、回車符、制表符 77
5.8 正則表達式相關實例 77
5.9 練習 89
第6章 字典 90
6.1 字典的概念 90
6.2 常用字典函數(shù) 92
6.3 字典排序 95
6.4 字典相關實例 97
6.5 練習 102
第7章 語料庫數(shù)據(jù)處理個案實例 103
7.1 分句和分詞 103
7.2 詞性賦碼 107
7.3 詞形還原 111
7.4 抽取詞塊 112
7.5 計算搭配強度 114
7.6 刪除詞表中的停用詞 119
7.7 語料檢索的KWIC實現(xiàn) 120
7.8 句子檢索相關個案 122
7.9 實現(xiàn)Range軟件功能 123
7.10 讀取多個文本文件 133
7.11 多個文本文件批量改名 137
7.12 使用Stanford CoreNLP進行文本處理 139
第8章 語料庫Unicode數(shù)據(jù)處理個案實例 153
8.1 中文分詞 153
8.2 中文詞性賦碼 157
8.3 檢索中文文本 160
8.4 英漢雙語語料文本的合并與分割 162
附錄A Python及命令行文本處理相關參考書籍 167
附錄B 賓夕法尼亞大學樹庫詞性賦碼集 168