定 價(jià):152 元
叢書名:大數(shù)據(jù)科學(xué)研究叢書
- 作者:夏換,楊秀璋,于小民編著
- 出版時(shí)間:2019/3/1
- ISBN:9787030606365
- 出 版 社:科學(xué)出版社
- 中圖法分類:TP274
- 頁(yè)碼:292
- 紙張:
- 版次:31
- 開本:B5
隨著計(jì)算機(jī)和互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展和廣泛普及,互聯(lián)網(wǎng)已經(jīng)成為人類獲取知識(shí)的最大平臺(tái)。在爬取了Web網(wǎng)頁(yè)語(yǔ)料后,需要通過(guò)數(shù)據(jù)預(yù)處理和數(shù)據(jù)分析來(lái)獲取數(shù)據(jù)的價(jià)值,從而造福人類,推動(dòng)社會(huì)發(fā)展。本書主要是Web大數(shù)據(jù)預(yù)處理和數(shù)據(jù)分析的實(shí)戰(zhàn)指南,內(nèi)容包括三部分:基礎(chǔ)知識(shí)、基于Python的數(shù)據(jù)預(yù)處理、基于Python的數(shù)據(jù)分析
更多科學(xué)出版社服務(wù),請(qǐng)掃碼獲取。
目錄
第一部分 基礎(chǔ)知識(shí)
第1章 概述 3
1.1 大數(shù)據(jù)預(yù)處理和分析 3
1.2 各章概要 8
1.3 如何閱讀本書 12
第2章 數(shù)據(jù)挖掘基礎(chǔ)知識(shí) 14
2.1 數(shù)據(jù)挖掘 14
2.2 有監(jiān)督學(xué)習(xí) 16
2.3 無(wú)監(jiān)督學(xué)習(xí) 17
2.4 部分監(jiān)督學(xué)習(xí) 19
第3章 關(guān)系型數(shù)據(jù)庫(kù)和語(yǔ)料知識(shí)庫(kù) 21
3.1 關(guān)系型數(shù)據(jù)庫(kù) 21
3.2 SQL基礎(chǔ)知識(shí) 23
3.3 Python調(diào)用數(shù)據(jù)庫(kù) 32
3.4 常見的語(yǔ)料知識(shí)庫(kù) 39
第4章 正則表達(dá)式和基本字符串函數(shù) 48
4.1 正則表達(dá)式 48
4.2 基本字符串函數(shù) 58
4.3 字符編碼簡(jiǎn)介 64
第二部分 基于Python的大數(shù)據(jù)預(yù)處理
第5章 數(shù)據(jù)預(yù)處理相關(guān)介紹 71
5.1 預(yù)處理概述 71
5.2 中文分詞 72
5.3 數(shù)據(jù)清洗 74
5.4 詞性標(biāo)注基礎(chǔ) 75
5.5 向量空間模型及特征提取 76
5.6 權(quán)重計(jì)算 76
第6章 中文分詞技術(shù)及Jieba工具 77
6.1 中文分詞技術(shù)介紹 77
6.2 常用中文分詞工具 80
6.3 Jieba中文分詞工具 81
6.4 案例分析:使用Jieba對(duì)百度百科摘要信息進(jìn)行中文分詞 91
第7章 數(shù)據(jù)清洗及停用詞過(guò)濾 94
7.1 數(shù)據(jù)清洗的概念 94
7.2 數(shù)據(jù)清洗常見方法 97
7.3 停用詞過(guò)濾 98
第8章 詞性標(biāo)注 106
8.1 詞性標(biāo)注概述 106
8.2 BosonNLP詞性標(biāo)注 109
8.3 Jieba工具詞性標(biāo)注 115
8.4 案例分析:基于Jieba工具的詞性標(biāo)注 120
第9章 向量空間模型及特征提取 124
9.1 向量空間模型 124
9.2 特征提取 126
9.3 余弦相似性 129
9.4 案例分析:基于向量空間模型的余弦相似度計(jì)算 131
第10章 權(quán)重計(jì)算及TF-IDF 139
10.1 權(quán)重計(jì)算 139
10.2 TF-IDF 141
10.3 Scikit-Learn中的TF-IDF使用方法 143
10.4 案例分析:TF-IDF計(jì)算中文語(yǔ)料權(quán)重 146
第三部分 基于Python的大數(shù)據(jù)分析
第11章 Python大數(shù)據(jù)分析的常用庫(kù)介紹 157
11.1 數(shù)據(jù)挖掘概述 157
11.2 開發(fā)軟件安裝過(guò)程 159
11.3 Scikit-Learn庫(kù) 165
11.4 NumPy、SciPy、Matplotlib庫(kù) 169
第12章 基于Python的聚類數(shù)據(jù)分析 175
12.1 聚類概述 175
12.2 聚類算法基本用法 178
12.3 案例分析:基于Birch層次聚類算法及PAC降維顯示聚類圖像 190
第13章 基于Python的分類算法分析 206
13.1 分類概述 206
13.2 Python分類算法基本用法 214
13.3 案例分析:基于新聞數(shù)據(jù)分類算法的示例 229
第14章 基于Python的LDA主題模型 242
14.1 LDA主題模型 242
14.2 LDA安裝過(guò)程 244
14.3 LDA基本用法 245
14.4 案例分析:LDA主題模型分布計(jì)算 254
第15章 基于Python的神經(jīng)網(wǎng)絡(luò)分析 265
15.1 神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)知識(shí) 265
15.2 神經(jīng)網(wǎng)絡(luò)的Python簡(jiǎn)單實(shí)現(xiàn) 271
15.3 Python神經(jīng)網(wǎng)絡(luò)工具包 275
15.4 案例分析:使用神經(jīng)網(wǎng)絡(luò)訓(xùn)練 280
參考文獻(xiàn) 283