文本數(shù)據(jù)挖掘 基于R語(yǔ)言
定 價(jià):89 元
- 作者:黃天元 著
- 出版時(shí)間:2021/4/1
- ISBN:9787111677505
- 出 版 社:機(jī)械工業(yè)出版社
- 中圖法分類:TP274
- 頁(yè)碼:181
- 紙張:膠版紙
- 版次:1
- 開(kāi)本:16開(kāi)
文本是一種特殊的非結(jié)構(gòu)化數(shù)據(jù),在當(dāng)今的大數(shù)據(jù)時(shí)代,其價(jià)值日趨凸顯。本書(shū)利用開(kāi)源而強(qiáng)大的R軟件,對(duì)文本數(shù)據(jù)挖掘的概念、技術(shù)及技巧進(jìn)行了系統(tǒng)的介紹。本書(shū)共11章,內(nèi)容包括:走進(jìn)文本數(shù)據(jù)挖掘,R語(yǔ)言快速入門,字符串的基本處理,用好正則表達(dá)式,導(dǎo)入各類文本數(shù)據(jù),對(duì)各類文本數(shù)據(jù)進(jìn)行預(yù)處理,文本特征提取的4種方法,基于機(jī)器學(xué)習(xí)的文本分類方法,文本情感分析,文本可視化,文本數(shù)據(jù)挖掘項(xiàng)目實(shí)踐。本書(shū)還提供了豐富的應(yīng)用案例和程序源代碼引導(dǎo)讀者高效學(xué)習(xí)。
本書(shū)適合對(duì)文本數(shù)據(jù)挖掘感興趣的學(xué)生、科研人員和數(shù)據(jù)科學(xué)從業(yè)者閱讀。同時(shí),本書(shū)還可以作為工具書(shū),為需要經(jīng)常進(jìn)行文本數(shù)據(jù)挖掘的讀者提供快速檢索。
適讀人群 :本書(shū)適合對(duì)文本數(shù)據(jù)挖掘感興趣的學(xué)生、科研人員和數(shù)據(jù)科學(xué)從業(yè)者閱讀。同時(shí),本書(shū)還可以作為工具書(shū),為需要經(jīng)常進(jìn)行文本數(shù)據(jù)挖掘的讀者提供快速檢索。 知乎R語(yǔ)言方面的大V新作
深入淺出地介紹文本數(shù)據(jù)挖掘技術(shù)原理與方法
簡(jiǎn)明扼要地介紹R語(yǔ)言編程基礎(chǔ)
結(jié)合大量實(shí)例循序漸進(jìn)地講解基于R語(yǔ)言的文本數(shù)據(jù)挖掘步驟、方法、技巧
文本作為重要的非結(jié)構(gòu)化數(shù)據(jù)之一,其相關(guān)方面的數(shù)據(jù)挖掘在醫(yī)療健康、市場(chǎng)營(yíng)銷、電商媒體、數(shù)字人文等各種場(chǎng)景中都有重要的應(yīng)用。例如,對(duì)電子病歷的規(guī)范化文本數(shù)據(jù)進(jìn)行提取,可以量化病人的診斷結(jié)果,提出合理建議;在點(diǎn)評(píng)類平臺(tái)中對(duì)消費(fèi)者的評(píng)論進(jìn)行關(guān)鍵詞提取,可以對(duì)店家的服務(wù)進(jìn)行評(píng)估;在公共社交平臺(tái)上對(duì)某一個(gè)話題的文本進(jìn)行提取和情感量化,可以獲知大眾對(duì)某一個(gè)話題的看法,把握相關(guān)輿情。這些應(yīng)用都有著巨大的價(jià)值提升潛力,而要發(fā)掘這些潛力則需要掌握體系化的文本數(shù)據(jù)挖掘方法。
對(duì)于文本數(shù)據(jù)挖掘工具而言,除了基于圖形交互界面的軟件(如Tableau)外,還有基于命令行的通用開(kāi)源軟件,如R和Python。雖然利用Python來(lái)做自然語(yǔ)言處理和文本數(shù)據(jù)分析的資料非常多,但是隨著文本數(shù)據(jù)挖掘日漸普及,各行各業(yè)的科研人員和從業(yè)者都需要發(fā)掘文本的價(jià)值,并希望快速習(xí)得一些實(shí)用的工具來(lái)對(duì)文本進(jìn)行分析。Python需要初學(xué)者具備更多的計(jì)算機(jī)編程知識(shí),才能發(fā)揮其效力;而R語(yǔ)言作為一個(gè)面向統(tǒng)計(jì)和可視化的開(kāi)源工具,逐漸受到更多來(lái)自工業(yè)界和科研界的認(rèn)可。R語(yǔ)言的開(kāi)發(fā)者在設(shè)計(jì)工具的時(shí)候通常認(rèn)為用戶也沒(méi)有太多的計(jì)算機(jī)編程基礎(chǔ),所以在各種軟件包中通過(guò)提供“傻瓜式”的函數(shù)操作,讓使用者僅僅通過(guò)復(fù)制粘貼較少的代碼,就能夠直接對(duì)自己的數(shù)據(jù)進(jìn)行復(fù)雜的數(shù)據(jù)操作與分析,這是R語(yǔ)言的一大特點(diǎn)。
本書(shū)立足于R語(yǔ)言在文本數(shù)據(jù)挖掘領(lǐng)域的發(fā)展前沿,對(duì)文本數(shù)據(jù)挖掘的基本概念和實(shí)現(xiàn)方法進(jìn)行了系統(tǒng)介紹,并利用大量實(shí)際案例和通用代碼來(lái)引導(dǎo)讀者進(jìn)行實(shí)踐和思考。通過(guò)閱讀本書(shū),讀者可以循序漸進(jìn)地掌握文本數(shù)據(jù)挖掘中的各種概念、方法和工具,完成日常學(xué)習(xí)和工作中的文本分析任務(wù)。
本書(shū)內(nèi)容
第 1 章,走進(jìn)文本數(shù)據(jù)挖掘。對(duì)文本數(shù)據(jù)挖掘進(jìn)行了綜合的介紹,內(nèi)容包括什么是文本數(shù)據(jù)挖掘、為什么要進(jìn)行文本數(shù)據(jù)挖掘和文本數(shù)據(jù)挖掘的基本框架,并對(duì)文本數(shù)據(jù)挖掘的常用軟件工具進(jìn)行了概述。
第 2 章,文本數(shù)據(jù)挖掘利器—R語(yǔ)言。向初學(xué)者介紹R語(yǔ)言的基本使用方法,包括軟件的安裝、環(huán)境的配置、數(shù)據(jù)結(jié)構(gòu)與類型、編程基礎(chǔ)和數(shù)據(jù)操作方法。
第 3 章,從基礎(chǔ)做起1—字符串的基本處理。主要利用stringr包作為工具,講述各式各樣的字符串操作及其在R中的實(shí)現(xiàn)方法。
第 4 章,從基礎(chǔ)做起2—用好正則表達(dá)式。介紹了正則表達(dá)式的基本概念,包括通配符、簡(jiǎn)寫字符集和反向引用等,并結(jié)合實(shí)例引導(dǎo)讀者進(jìn)行實(shí)踐。
第 5 章,步入正題—導(dǎo)入各類文本數(shù)據(jù)。介紹了如何把本地各種格式的文本數(shù)據(jù)導(dǎo)入到R環(huán)境中,并講述了如何進(jìn)行編碼格式的識(shí)別和文本數(shù)據(jù)結(jié)構(gòu)的轉(zhuǎn)化。
第 6 章,更進(jìn)一步—對(duì)各類文本數(shù)據(jù)進(jìn)行預(yù)處理。針對(duì)文本數(shù)據(jù)清洗這一主題,對(duì)文本切分、去除停用詞、詞干提取、詞性標(biāo)注等預(yù)處理任務(wù)進(jìn)行了介紹。
第 7 章,上手文本數(shù)據(jù)挖掘—文本特征提取的4種方法。主要介紹了文本特征提取的方法,包括TF-IDF特征提取、各種詞嵌入的方法以及文檔向量化。
第 8 章,文本分類—基于機(jī)器學(xué)習(xí)的方法。從無(wú)監(jiān)督和有監(jiān)督兩個(gè)方面,介紹了文本數(shù)據(jù)分類的基本方法,并給出相關(guān)的實(shí)踐代碼。
第 9 章,深入理解文本內(nèi)涵—文本情感分析。分別對(duì)如何進(jìn)行英文情感分析和中文情感分析進(jìn)行了介紹,并給出通用案例和系統(tǒng)實(shí)現(xiàn)過(guò)程。
第 10 章,文本數(shù)據(jù)的直觀表達(dá)—文本可視化。聚焦于文本可視化,介紹了如何利用文本信息繪制條形圖、克利夫蘭點(diǎn)圖、矩形樹(shù)狀圖、詞云圖、詞匯位置分布圖、網(wǎng)絡(luò)圖等。
第 11 章,舉一反三—文本數(shù)據(jù)挖掘項(xiàng)目實(shí)踐。利用3個(gè)典型的文本分析案例,來(lái)引導(dǎo)讀者對(duì)情感分析、文本分類和關(guān)鍵詞提取進(jìn)行學(xué)習(xí)和實(shí)踐。
本書(shū)特點(diǎn)
? 深入淺出,簡(jiǎn)單易學(xué):本書(shū)不需要讀者具有文本挖掘或R語(yǔ)言的基礎(chǔ)知識(shí),循序漸進(jìn)地帶領(lǐng)讀者掌握文本數(shù)據(jù)挖掘中的各種知識(shí)以及文本分析在R語(yǔ)言中的實(shí)現(xiàn)方法。
? 代碼豐富,實(shí)踐性強(qiáng):本書(shū)幾乎在所有文本分析任務(wù)中都提供了簡(jiǎn)潔可行的R語(yǔ)言實(shí)現(xiàn)代碼,讀者可以通過(guò)實(shí)踐來(lái)體會(huì)每一步文本挖掘操作。通過(guò)反復(fù)練習(xí),可以習(xí)得其中的技巧,并運(yùn)用在自己的文本數(shù)據(jù)挖掘任務(wù)中。
? 體系完備,系統(tǒng)性強(qiáng):本書(shū)介紹了文本數(shù)據(jù)挖掘基本任務(wù)的方方面面,從文本數(shù)據(jù)的導(dǎo)入和預(yù)處理到分析、建模和可視化。有利于讀者對(duì)整體知識(shí)結(jié)構(gòu)的把握,從而在解決文本數(shù)據(jù)挖掘問(wèn)題的時(shí)候具有更加全面而細(xì)致的考慮。
? 內(nèi)容新穎,緊跟前沿:文本數(shù)據(jù)挖掘作為經(jīng)典的知識(shí)體系不會(huì)過(guò)時(shí),但是軟件工具卻在一直在更新迭代。本書(shū)參考了大量近3年內(nèi)的R軟件包及其幫助文檔,緊跟技術(shù)發(fā)展潮流,讓讀者能夠習(xí)得較為先進(jìn)的實(shí)現(xiàn)技術(shù),提高編寫代碼的效率。
適用對(duì)象
本書(shū)適合需要對(duì)文本數(shù)據(jù)挖掘進(jìn)行了解和運(yùn)用的在校大學(xué)生、科研人員和數(shù)據(jù)分析從業(yè)者,尤其適合初學(xué)者入門,同時(shí)能夠?yàn)閬?lái)自各行各業(yè)(新聞媒體、人文社科、醫(yī)療健康、生物醫(yī)藥、環(huán)境生態(tài)、市場(chǎng)營(yíng)銷等)對(duì)文本數(shù)據(jù)分析感興趣的廣大讀者提供技術(shù)參考。
本書(shū)作者
本書(shū)在編寫過(guò)程中參考了國(guó)內(nèi)外大量的文本挖掘與R語(yǔ)言實(shí)現(xiàn)的相關(guān)資料。本書(shū)的完成首先要感謝R語(yǔ)言開(kāi)源社區(qū),他們不知疲倦的努力和無(wú)私的分享讓R語(yǔ)言在文本數(shù)據(jù)挖掘中越發(fā)強(qiáng)大。同時(shí),需要對(duì)復(fù)旦大學(xué)圖書(shū)館情報(bào)研究部進(jìn)行致謝,我在這里擔(dān)任助管期間得到了很多鍛煉和啟示。還要感謝謝琳老師、趙斌教授和中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心科學(xué)計(jì)量小組在本書(shū)編寫期間對(duì)我的支持。感謝機(jī)械工業(yè)出版社各位編輯專業(yè)的工作。最后,感謝我的父母,無(wú)論在任何時(shí)候都給予我無(wú)私的愛(ài)。
由于作者水平有限,書(shū)中難免出現(xiàn)錯(cuò)誤和不足之處,敬請(qǐng)廣大讀者批評(píng)指正。希望本書(shū)能夠讓各位讀者從零到一、從無(wú)到有地獲知文本數(shù)據(jù)挖掘的基本概念,并習(xí)得利用R語(yǔ)言進(jìn)行文本數(shù)據(jù)挖掘的技術(shù)技巧。
黃天元
黃天元,復(fù)旦大學(xué)理學(xué)博士。熱愛(ài)數(shù)據(jù)科學(xué)與開(kāi)源工具,致力于利用數(shù)據(jù)科學(xué)迅速積累行業(yè)經(jīng)驗(yàn)優(yōu)勢(shì)和科學(xué)知識(shí)發(fā)現(xiàn),研究領(lǐng)域包括但不限于信息計(jì)量、機(jī)器學(xué)習(xí)、數(shù)據(jù)可視化、應(yīng)用統(tǒng)計(jì)建模、知識(shí)圖譜等。在CRAN上維護(hù)了3個(gè)下載量破萬(wàn)的R包(akc、tidyfst、tidyft),著有《R語(yǔ)言高效數(shù)據(jù)處理指南》一書(shū),并設(shè)有知乎專欄“R語(yǔ)言數(shù)據(jù)挖掘”,關(guān)注人數(shù)9000+。
目錄
前言
第1章 走進(jìn)文本數(shù)據(jù)挖掘1
1.1 什么是文本數(shù)據(jù)挖掘1
1.2 為什么要做文本數(shù)據(jù)挖掘2
1.3 如何進(jìn)行文本數(shù)據(jù)挖掘2
1.3.1 文本數(shù)據(jù)挖掘的流程2
1.3.2 文本數(shù)據(jù)挖掘的基本任務(wù)及方法4
1.4 文本數(shù)據(jù)挖掘軟件工具概覽5
第2章 文本數(shù)據(jù)挖掘利器—R語(yǔ)言7
2.1 開(kāi)發(fā)環(huán)境配置7
2.1.1 下載并安裝R軟件7
2.1.2 包的管理8
2.1.3 版本升級(jí)9
2.1.4 集成開(kāi)發(fā)環(huán)境10
2.2 R的基本數(shù)據(jù)類型11
2.2.1 數(shù)值型12
2.2.2 邏輯型12
2.2.3 字符型12
2.2.4 因子型13
2.3 R的常用數(shù)據(jù)結(jié)構(gòu)13
2.3.1 向量13
2.3.2 矩陣14
2.3.3 列表14
2.3.4 數(shù)據(jù)框15
2.4 R的基礎(chǔ)編程知識(shí)15
2.4.1 賦值15
2.4.2 函數(shù)16
2.4.3 強(qiáng)制類型轉(zhuǎn)換16
2.4.4 條件判斷17
2.4.5 循環(huán)操作17
2.5 數(shù)據(jù)操作入門19
2.5.1 文件讀寫19
2.5.2 數(shù)據(jù)框的檢視25
2.5.3 單表操作28
2.5.4 多表操作37
2.5.5 缺失值處理42
2.5.6 長(zhǎng)寬數(shù)據(jù)轉(zhuǎn)換46
第3章 從基礎(chǔ)做起1—字符串的基本處理51
3.1 字符串的構(gòu)造51
3.2 字符串的辨識(shí)、計(jì)數(shù)與定位52
3.3 字符串的提取53
3.4 字符串的定制化輸出54
3.5 字符串的替換與刪除56
3.6 字符串的拼接與拆分57
3.7 字符串的排序57
第4章 從基礎(chǔ)做起2—用好正則表達(dá)式59
4.1 通配符解析59
4.1.1 點(diǎn)運(yùn)算符(“.”)60
4.1.2 字符集(“[]”)60
4.1.3 否定字符集(“[^ ]”)61
4.1.4 出現(xiàn)0次或更多(“*”)61
4.1.5 出現(xiàn)1次或更多(“+”)62
4.1.6 出現(xiàn)0次或1次(“?”)62
4.1.7 出現(xiàn)次數(shù)范圍限制(“{}”)62
4.1.8 特征標(biāo)群(“(...)”)62
4.1.9 或運(yùn)算符(“|”)63
4.1.10 轉(zhuǎn)義字符(“\\\\”)63
4.1.11 匹配開(kāi)頭部分(“^”)63
4.1.12 匹配結(jié)尾部分(“$”)64
4.2 反向引用64
4.3 簡(jiǎn)寫字符集65
4.4 貪婪匹配與惰性匹配66
4.5 零寬斷言67
4.5.1 正先行斷言(“?=...”)67
4.5.2 負(fù)先行斷言(“?!...”)68
4.5.3 正后發(fā)斷言(“?<= ...”)68
4.5.4 負(fù)后發(fā)斷言(“?4.5.5 提取括號(hào)中的內(nèi)容68
第5章 步入正題—導(dǎo)入各類文本數(shù)據(jù)70
5.1 readtext包簡(jiǎn)介70
5.2 不同格式文本文件的導(dǎo)入70
5.2.1 讀取txt文件71
5.2.2 讀取csv/tsv文件72
5.2.3 讀取json文件74
5.2.4 讀取pdf文件74
5.2.5 讀取Word文件75
5.2.6 讀取html文件75
5.2.7 讀取壓縮包75
5.3 讀入不同編碼格式的文檔76
5.4 文件數(shù)據(jù)結(jié)構(gòu)的轉(zhuǎn)化77
第6章 更進(jìn)一步—對(duì)各類文本數(shù)據(jù)進(jìn)行預(yù)處理79
6.1 拼寫糾錯(cuò)79
6.2 文本切分80
6.2.1 段落切分81
6.2.2 句子切分82
6.2.3 詞語(yǔ)切分82
6.2.4 n元切分85
6.2.5 字符切分85
6.3 去除標(biāo)點(diǎn)86
6.4 去除停用詞86
6.5 擴(kuò)展縮寫87
6.6 詞干提取87
6.7 詞形還原與詞性標(biāo)注88
6.8 批量文檔預(yù)處理90
第7章 上手文本數(shù)據(jù)挖掘—文本特征提取的4種方法92
7.1 基本特征提取92
7.2 基于TF-IDF的特征提取94
7.3 詞嵌入96
7.3.1 基于BOW96
7.3.2 基于word2vec98
7.3.3 基于GloVe100
7.3.4 基于fastText101
7.4 文檔向量化:doc2vec102
第8章 文本分類—基于機(jī)器學(xué)習(xí)的方法105
8.1 無(wú)監(jiān)督分類105
8.1.1 基于文本相似度的聚類105
8.1.2 基于網(wǎng)絡(luò)集群識(shí)別的自動(dòng)化聚類120
8.1.3 基于主題模型的分類125
8.2 有監(jiān)督分類129
8.2.1 二分類129
8.2.2 多分類136
第9章 深入理解文本內(nèi)涵—文本情感分析142
9.1 英文情感分析142
9.1.1 RSentiment143
9.1.2 sentimentr144
9.1.3 SentimentAnalysis145
9.1.4 meanr147
9.1.5 sentometrics148
9.2 中文情感分析151
9.2.1 環(huán)境與數(shù)據(jù)準(zhǔn)備151
9.2.2 情感詞典準(zhǔn)備151
9.2.3 中文分詞152
9.2.4 分值計(jì)算152
9.2.5 小結(jié)152
第10章 文本數(shù)據(jù)的直觀表達(dá)—文本可視化153
10.1 條形圖153
10.2 克利夫蘭點(diǎn)圖155
10.3 矩形樹(shù)狀圖156
10.4 詞云157
10.5 詞匯位置分布圖159
10.6 網(wǎng)絡(luò)圖164
10.7 雙文檔對(duì)比可視化167
第11章 舉一反三—文本數(shù)據(jù)挖掘項(xiàng)目實(shí)踐170
11.1 情感分析案例:量化中文新聞報(bào)道中的情感走勢(shì)170
11.2 文本分類案例:基于詞袋模型對(duì)英文期刊摘要來(lái)源進(jìn)行分類176
11.3 關(guān)鍵詞提取案例:根據(jù)CRAN的介紹文本提取R包關(guān)鍵字181