本書主要介紹數(shù)據(jù)挖掘的基本技術(shù)和應用。數(shù)據(jù)挖掘作為一個多學科領域,從多個學科汲取營養(yǎng)。這些學科包括統(tǒng)計學、機器學習、模式識別、數(shù)據(jù)庫技術(shù)、信息檢索、網(wǎng)絡科學、知識庫系統(tǒng)、人工智能、高性能計算和數(shù)據(jù)可視化。我們提供發(fā)現(xiàn)隱藏在大型數(shù)據(jù)集中的模式的技術(shù),關注可行性、有用性、有效性和可伸縮性問題。盡管我們確實提供了這些領域的必要背景材料,以便讀者理解它們各自在數(shù)據(jù)挖掘中的作用。本書中由淺入深的為每個章節(jié)準備了案例,使讀者能了解數(shù)據(jù)挖掘技術(shù)是如何運用在實際問題上的,從而靈活運用所學知識和技能。
中科曙光下的教育培訓結(jié)構(gòu),目前在全國有幾十所合作院校,部分高校實現(xiàn)了課程植入,瑞翼教育對每個教育點派駐教學團隊。一流企業(yè)+高校,大數(shù)據(jù)、人工智能必修課程,企業(yè)案例+實踐平臺
吳建生,廣西科技師范學院數(shù)學與計算機科學學院教授、碩士生導師。數(shù)學與計算機科學學院院長,中國計算機學會高級會員、廣西人工智能常務理事、廣西數(shù)學學會常務理事。研究領域為智能計算、機器學習、數(shù)據(jù)挖掘。獲得廣西科學技術(shù)進步二等獎3項。公開發(fā)表研究論文30 多篇,被 SCI、EI 收錄論文18 篇,完成軟件著作8套,發(fā)明專利4個、實用新型專利10多個。
第 1 章 數(shù)據(jù)挖掘概述 1
1.1 數(shù)據(jù)挖掘發(fā)展簡述 1
1.1.1 數(shù)據(jù)時代 1
1.1.2 數(shù)據(jù)分析的技術(shù)發(fā)展 2
1.2 數(shù)據(jù)挖掘概念 5
1.2.1 數(shù)據(jù)挖掘的定義與OLAP 5
1.2.2 數(shù)據(jù)挖掘與知識發(fā)現(xiàn)KDD 6
1.3 數(shù)據(jù)挖掘的功能與應用領域 9
1.3.1 電子商務 9
1.3.2 電信行業(yè) 10
1.3.3 金融行業(yè) 10
1.3.4 醫(yī)療行業(yè) 10
1.3.5 社會網(wǎng)絡 11
1.3.6 數(shù)據(jù)挖掘應用的問題 11
1.4 數(shù)據(jù)挖掘的模式類型 11
1.4.1 類/概念描述:特征和區(qū)分 12
1.4.2 回歸(regression) 13
1.4.3 分類(classification) 14
1.4.4 預測(forecasting) 15
1.4.5 關聯(lián)分析(association) 15
1.4.6 聚類分析(cluster) 16
1.4.7 異常檢測(anomalydetection) 17
1.4.8 小結(jié) 17
1.5 數(shù)據(jù)挖掘的數(shù)據(jù)類型 18
1.5.1 數(shù)據(jù)庫 18
1.5.2 數(shù)據(jù)倉庫數(shù)據(jù) 19
1.5.3 其它數(shù)據(jù)類型 20
1.6 數(shù)據(jù)挖掘的交叉學科 20
1.6.1 統(tǒng)計學 21
1.6.2 機器學習 21
1.6.3 數(shù)據(jù)庫與數(shù)據(jù)倉庫 22
第 2章 Pandas數(shù)據(jù)分析 23
2.1 Pandas與數(shù)據(jù)分析 23
2.1.1 統(tǒng)計學與數(shù)據(jù)挖掘 23
2.1.2 常用的統(tǒng)計學指標 24
2.1.3 Pandas的簡單介紹 26
2.2 Pandas統(tǒng)計案例分析 30
2.2.1 實驗實現(xiàn)Pandas自行車數(shù)據(jù)分析 30
2.2.2 實驗實現(xiàn)Pandas服務熱線數(shù)據(jù)分析 36
第3章 數(shù)據(jù)挖掘與機器學習 41
3.1 數(shù)據(jù)挖掘中的機器學習 41
3.1.1 什么是機器學習? 41
3.1.2 機器學習處理的問題 42
3.1.3 機器學習的框架 42
3.1.4 數(shù)據(jù)的加載和分割 43
3.2 機器學習的模型 45
3.2.1 模型的選擇 45
3.2.1 學習和預測 46
3.2.3 實驗實現(xiàn)機器學習模型 47
3.3 模型的評判和保存 48
3.3.1 分類、回歸、聚類不同的評判指標 48
3.3.2 交叉驗證 (Cross validation) 49
3.3.3 實驗實現(xiàn)分類、回歸指標 50
3.3.4 實驗實現(xiàn)cross_val_score 51
3.3.5 實驗實現(xiàn)模型的保存 52
3.4 支持向量機 53
3.4.1 支持向量機 53
3.4.2 實驗實現(xiàn)支持向量機分類 54
3.4.3 實驗實現(xiàn)支持向量機回歸 55
3.4.4 實驗實現(xiàn)支持向量機異常檢測 55
3.5 過擬合問題 58
3.5.1 過擬合 58
3.5.2 實驗實現(xiàn)學習曲線和驗證曲線 59
第4章 分類分析方法與應用 62
4.1 數(shù)據(jù)挖掘分類問題 62
4.2 概率模型 63
4.2.1 原理 63
4.2.2 應用場景 66
4.3 樸素貝葉斯分類 66
4.3.1 原理與應用場景 66
4.3.2 實驗實現(xiàn)樸素貝葉斯算法 67
4.4 向量空間模型 68
4.4.1 原理與應用場景 68
4.4.2 實驗實現(xiàn)空間向量模型 69
4.5 KNN算法 72
4.5.1 原理與應用場景 72
4.5.2 實驗實現(xiàn)KNN算法 74
4.6 多類問題 76
4.6.1 原理與應用場景 76
4.6.2 實驗實現(xiàn)多類問題 77
第5章 回歸模型算法與應用 79
5.1 回歸預測問題 80
5.2 線性回歸 81
5.2.1 原理與應用場景 81
5.2.2 實驗實現(xiàn)線性回歸 82
5.3 嶺回歸和LASSO 84
5.3.1 原理與應用場景 84
5.3.2 實驗實現(xiàn)嶺回歸 87
5.4 邏輯回歸 89
5.4.1 原理與應用場景 89
5.4.2 實驗實現(xiàn)邏輯回歸 91
第6章 無監(jiān)督學習 94
6.1 無監(jiān)督學習問題 94
6.1.1 無監(jiān)督學習 94
6.1.2 聚類分析的基本概念與原理 95
6.2 劃分聚類 96
6.2.1 劃分聚類 96
6.2.2 K-Means算法 97
6.2.3 實驗實現(xiàn)K-Means算法 100
6.3 層次聚類 103
6.3.1 層次聚類算法 103
6.3.2 實驗實現(xiàn)層次聚類算法實現(xiàn) 105
6.4 聚類效果評測 106
6.4.1 聚類效果的評測 106
6.4.2 實驗實現(xiàn)聚類效果評測 107
6.5 降維 108
6.5.1 降維方法 108
6.5.2 實驗實現(xiàn)降維 108
第7章 關聯(lián)規(guī)則 110
7.1 關聯(lián)規(guī)則的概念 111
7.1.1 什么是關聯(lián)規(guī)則? 111
7.2 Apriori算法 112
7.2.1 Apriori算法概念 112
7.2.2 Apriori算法實現(xiàn)原理 113
7.2.3 實驗實現(xiàn)Apriori算法 115
7.3 協(xié)同過濾 119
7.3.1 協(xié)同過濾算法的概念 119
7.3.2 協(xié)同過濾(基于用戶) 120
7.3.3 協(xié)同過濾(基于用戶) 122
7.3.4 實驗實現(xiàn)協(xié)同過濾算法 124
第8章 圖像數(shù)據(jù)分析 129
8.1 圖像數(shù)據(jù) 129
8.2 圖像數(shù)據(jù)分析方法 131
8.3 圖像數(shù)據(jù)分析案例 133
8.3.1 PIL:Python圖像處理類庫應用示例 133
8.3.2 Numpy圖像數(shù)據(jù)分析示例 138
8.3.3 Scipy圖像數(shù)據(jù)分析示例 141
8.3.4 scikit-image 145
8.3.5 綜合練習 150
第 9 章 自然語言處理與NLTK 151
9.1 自然語言處理概述 151
9.1.1 什么是自然語言處理? 151
9.2 NLTK入門基礎 152
9.2.1 Python的第三方模塊NLTK 152
9.2.2 實驗實現(xiàn)詞條化 153
9.2.3 實驗實現(xiàn)詞干還原 154
9.2.4 實驗實現(xiàn)詞型歸并 155
9.2.5 實驗實現(xiàn)文本劃分 156
9.2.6 實驗實現(xiàn)數(shù)值型數(shù)據(jù)的轉(zhuǎn)換 157
9.3 NLTK文本分析 159
9.3.1 實驗實現(xiàn)文本分類器 159
9.3.2 實驗實現(xiàn)性別判斷 161
9.3.3 實驗實現(xiàn)情感分析 162