本書由認識篇、技術(shù)篇和案例篇三部分組成,以商業(yè)領(lǐng)域中的問題為背景,主要講解數(shù)據(jù)挖掘技術(shù)的應用。認識篇介紹數(shù)據(jù)挖掘的各種技術(shù)和數(shù)據(jù)挖掘建模方法,可使讀者了解數(shù)據(jù)挖掘技術(shù)在商業(yè)領(lǐng)域中的應用概貌;技術(shù)篇介紹數(shù)據(jù)挖掘中的聚類分析、分類分析、關(guān)聯(lián)規(guī)則分析、離群點檢測、回歸分析等方法;案例篇介紹實際領(lǐng)域應用較多的RFM分析、社會網(wǎng)絡分析和文本挖掘,展示數(shù)據(jù)挖掘在不同領(lǐng)域中的應用案例,使讀者理解如何應用數(shù)據(jù)挖掘技術(shù)解決商業(yè)領(lǐng)域中的問題。 本書可作為經(jīng)濟、管理類等相關(guān)專業(yè)學生學習數(shù)據(jù)挖掘技術(shù)的教材或參考書,也可作為計算機相關(guān)專業(yè)學生學習數(shù)據(jù)挖掘技術(shù)的參考書,還可作為企事業(yè)單位管理者、數(shù)據(jù)分析人員、市場營銷人員、研究與開發(fā)人員的參考資料。
蔣盛益,教授、博士,碩士生導師;廣東省"千百十"工程省級培養(yǎng)對象,廣東外語外貿(mào)大學教學名師。中國計算機學會高級會員,中國計算機學會中文信息技術(shù)專委會委員,中國中文信息學會計算語言學專業(yè)委員會委員、社會媒體處理專委會委員,人工智能學會機器學習專委會委員,廣東省計算機學會常務理事;廣州市計算機學會常務理事;第十、十一屆廣東省政協(xié)委員。先后在湖南師范大學、中南工業(yè)大學、華中科技大學畢業(yè),分別獲理學學士學位、理學碩士學位、工學博士學位。目前重點研究方向是利用自然語言處理、社會網(wǎng)絡分析技術(shù)來處理網(wǎng)絡新聞和社交媒體中的數(shù)據(jù),包括新聞觀點自動提取、對特定事件的立場(支持還是反對)分析、輿情傳播模式研究、用戶影響力分析等。應用背景包括國內(nèi)外輿情分析、海上絲綢之路的情報分析。
目錄
上篇 認識篇
第1章 緒論 3
1.1 引例 3
1.2 數(shù)據(jù)挖掘簡介 5
1.2.1 數(shù)據(jù)挖掘技術(shù)的使用背景 5
1.2.2 數(shù)據(jù)挖掘的概念 7
1.2.3 數(shù)據(jù)挖掘任務 7
1.2.4 數(shù)據(jù)挖掘過程 9
1.2.5 數(shù)據(jù)挖掘技術(shù)的前景 9
1.2.6 數(shù)據(jù)挖掘十大經(jīng)典算法 11
1.3 數(shù)據(jù)挖掘在商業(yè)領(lǐng)域中的應用 12
1.3.1 客戶關(guān)系管理 13
1.3.2 市場營銷 15
1.3.3 個性化推薦與個性化服務 17
1.3.4 信用評估與欺詐檢測 19
1.3.5 供應鏈庫存管理中的需求預測 21
1.3.6 人力資源管理 22
1.4 數(shù)據(jù)挖掘與隱私保護 23
1.5 數(shù)據(jù)挖掘工具及其選擇 25
本章小結(jié) 25
習題1 26
案例分析:聚類城鎮(zhèn) 26
第2章 數(shù)據(jù)挖掘建模方法 28
2.1 數(shù)據(jù)挖掘建模概述 28
2.2 業(yè)務理解 31
2.3 數(shù)據(jù)理解 31
2.4 數(shù)據(jù)準備 32
2.5 建模 35
2.5.1 成功建立預測模型的注意事項 35
2.5.2 如何建立有效的預測模型 37
2.6 評估 39
2.7 部署 40
2.8 辛普森悖論 41
本章小結(jié) 42
習題2 43
案例分析 43
中篇 技術(shù)篇
第3章 數(shù)據(jù)準備 49
3.1 數(shù)據(jù)探索 50
3.1.1 描述性統(tǒng)計分析 51
3.1.2 數(shù)據(jù)可視化 54
3.2 數(shù)據(jù)清理 55
3.3 數(shù)據(jù)集成 58
3.4 數(shù)據(jù)變換 59
3.5 數(shù)據(jù)歸約 64
3.6 Clementine簡介 67
3.6.1 Clementine數(shù)據(jù)流操作 68
3.6.2 輸入、輸出節(jié)點 71
3.6.3 數(shù)據(jù)可視化節(jié)點 78
3.6.4 數(shù)據(jù)預處理節(jié)點 82
3.7 綜合案例:電信客戶通話模式分析 86
本章小結(jié) 92
習題3 92
案例分析 93
第4章 聚類分析 95
4.1 聚類分析概述 95
4.2 相似性度量 96
4.2.1 數(shù)據(jù)及數(shù)據(jù)類型 96
4.2.2 屬性之間的相似性度量 98
4.2.3 對象之間的相似性度量 99
4.3 k-Means算法及其改進 104
4.3.1 k -Means算法 104
4.3.2 k-Means算法的拓展 106
4.4 DBSCAN聚類算法 112
4.5 一趟聚類算法 115
4.5.1 算法描述 115
4.5.2 聚類閾值的選擇策略 115
4.5.3 一趟聚類算法的應用 117
4.6 層次聚類算法 118
4.6.1 概述 118
4.6.2 二分k -Means算法 119
4.6.3 BIRCH算法 119
4.6.4 兩步聚類算法 121
4.7 SOM算法 123
4.7.1 SOM算法中網(wǎng)絡的拓撲結(jié)構(gòu) 124
4.7.2 SOM算法的聚類原理 125
4.8 聚類算法評價 126
4.8.1 有監(jiān)督度量 126
4.8.2 無監(jiān)督度量 127
4.9 Clementine中相關(guān)節(jié)點的介紹 128
4.9.1 k -Means節(jié)點 128
4.9.2 兩步節(jié)點 130
4.9.3 Kohonen節(jié)點 130
4.10 綜合案例:超市客戶細分 132
本章小結(jié) 134
習題4 135
案例分析 135
第5章 分類分析 137
5.1 分類概述 138
5.2 決策樹分類方法 138
5.2.1 決策樹的基本概念 138
5.2.2 決策樹的構(gòu)建 140
5.2.3 Hunt算法 144
5.2.4 C4.5分類算法 145
5.2.5 CART算法 148
5.2.6 C4.5與CART算法的主要區(qū)別 156
5.2.7 決策樹分類算法的特點 156
5.3 貝葉斯分類方法 156
5.3.1 貝葉斯定理 156
5.3.2 樸素貝葉斯分類算法 157
5.3.3 零條件概率問題的處理 158
5.3.4 樸素貝葉斯算法的優(yōu)缺點 159
5.3.5 貝葉斯信念網(wǎng)絡 161
5.4 KNN 162
5.4.1 最近鄰分類方法的基本概念 163
5.4.2 KNN算法的優(yōu)缺點 163
5.4.3 KNN算法的擴展 163
5.5 集成分類方法 164
5.5.1 集成分類方法的過程描述 164
5.5.2 構(gòu)建集成分類器的方法 165
5.5.3 隨機森林 166
5.5.4 集成分類方法的優(yōu)缺點 168
5.6 分類方法評價 168
5.6.1 分類模型性能評價指標 168
5.6.2 分類模型性能評價應注意的點 169
5.6.3 評估分類模型性能的方法 170
5.7 Clementine中相關(guān)節(jié)點的介紹 171
5.7.1 C5.0節(jié)點 171
5.7.2 CRT節(jié)點 173
5.7.3 貝葉斯節(jié)點 174
5.7.4 集成節(jié)點 177
5.7.5 分析節(jié)點 177
5.7.6 評估節(jié)點 179
5.8 綜合案例 183
5.8.1 案例5-1:銀行客戶信用風險評估 183
5.8.2 案例5-2:離職員工預測 185
本章小結(jié) 188
習題5 188
案例分析 190
第6章 關(guān)聯(lián)規(guī)則分析 191
6.1 關(guān)聯(lián)規(guī)則分析概述 191
6.2 關(guān)聯(lián)規(guī)則分析基礎(chǔ) 192
6.2.1 基本概念 192
6.2.2 基礎(chǔ)分析方法 193
6.3 Apriori算法 195
6.3.1 Apriori性質(zhì) 195
6.3.2 產(chǎn)生頻繁項集 196
6.3.3 頻繁項集構(gòu)造示例 197
6.3.4 產(chǎn)生關(guān)聯(lián)規(guī)則 198
6.3.5 規(guī)則的評估標準 201
6.3.6 Apriori算法評價 203
6.4 FP-Growth算法 203
6.4.1 FP-Tree表示法 204
6.4.2 構(gòu)建FP-Tree 204
6.4.3 發(fā)現(xiàn)頻繁項集 207
6.5 關(guān)聯(lián)規(guī)則擴展 208
6.5.1 關(guān)聯(lián)規(guī)則分類 208
6.5.2 多層次關(guān)聯(lián)規(guī)則 209
6.5.3 多維關(guān)聯(lián)規(guī)則 210
6.5.4 定量關(guān)聯(lián)規(guī)則 211
6.5.5 基于約束的關(guān)聯(lián)規(guī)則 211
6.5.6 序列模式挖掘 211
6.6 Clementine中Apriori節(jié)點的介紹 212
6.7 綜合案例 213
6.7.1 案例6-1:超市購物籃分析 213
6.7.2 案例6-2:移動業(yè)務關(guān)聯(lián)分析 218
本章小結(jié) 225
習題6 226
案例分析 227
第7章 離群點檢測 229
7.1 離群點概述 229
7.2 基于距離的離群點檢測方法 231
7.3 基于相對密度的離群點檢測方法 232
7.4 基于聚類的離群點檢測方法 237
7.4.1 基于對象的離群因子檢測方法 238
7.4.2 基于簇的離群因子檢測方法 240
7.4.3 基于聚類的動態(tài)數(shù)據(jù)離群點檢測 242
7.5 離群點檢測方法的評估 243
7.6 Clementine中的異常節(jié)點 243
7.7 綜合案例:信用卡欺詐檢測 245
本章小結(jié) 246
習題7 246
案例分析 247
第8章 回歸分析 248
8.1 回歸分析概述 248
8.2 線性回歸模型 249
8.2.1 多元線性回歸模型的表示 249
8.2.2 多元線性回歸模型的檢驗 250
8.3 非線性回歸 252
8.4 邏輯回歸 255
8.4.1 二元邏輯回歸模型 255
8.4.2 邏輯回歸模型的系數(shù)估計 256
8.4.3 邏輯回歸模型系數(shù)的解釋 257
8.4.4 顯著性檢驗 257
8.4.5 回歸方程的擬合優(yōu)度檢驗 258
8.5 Clementine中相關(guān)節(jié)點介紹 263
8.5.1 線性回歸節(jié)點 263
8.5.2 邏輯回歸節(jié)點 264
8.6 綜合案例:我國私人汽車擁有量的非線性回歸 265
本章小結(jié) 268
習題8 268
案例分析 270
下篇 案例篇
第9章 RFM分析 275
9.1 RFM分析的基本原理 275
9.2 RFM模型的應用場景 276
9.3 Clementine中相關(guān)節(jié)點介紹 277
9.3.1 RFM匯總節(jié)點 277
9.3.2 RFM分析節(jié)點 278
9.4 綜合案例 280
9.4.1 案例9-1:識別促銷的目標客戶 280
9.4.2 案例9-2:Charles讀書俱樂部目錄銷售 285
9.4.3 案例9-3:銷售數(shù)據(jù)分析 290
本章小結(jié) 294
第10章 社會網(wǎng)絡分析 295
10.1 圖論基礎(chǔ) 295
10.2 社會網(wǎng)絡分析概述 296
10.2.1 社會網(wǎng)絡分析相關(guān)概念 297
10.2.2 中心性 297
10.2.3 權(quán)威性 299
10.2.4 網(wǎng)絡密度 299
10.3 社區(qū)檢測 300
10.3.1 社區(qū)檢測方法簡介 300
10.3.2 社區(qū)檢測質(zhì)量評價 301
10.4 社會網(wǎng)絡分析軟件 302
10.4.1 社會網(wǎng)絡分析軟件概述 302
10.4.2 Gephi簡介 303
10.5 綜合案例 306
10.5.1 案例10-1:基于社區(qū)檢測的通信業(yè)客戶細分 306
10.5.2 案例10-2:“一帶一路”沿線國家間貿(mào)易數(shù)據(jù)分析 311
本章小結(jié) 318
第11章 文本挖掘 319
11.1 分詞技術(shù) 319
11.1.1 分詞挑戰(zhàn) 319
11.1.2 分詞方法 320
11.1.3 常見分詞工具 321
11.2 文本向量化 322
11.2.1 向量空間模型 322
11.2.2 文本特征選擇 323
11.3 文本聚類 324
11.3.1 文本相似度計算 324
11.3.2 文本聚類過程 325
11.4 文本分類 325
11.4.1 文本分類的概念 325
11.4.2 常用文本分類算法 326
11.4.3 常用基準語料與模型評估標準 327
11.5 文本情感分析 328
11.5.1 文本情感分析的概念 329
11.5.2 文本情感分析技術(shù) 329
11.5.3 文本情感分析的應用 330
11.6 相關(guān)軟件 331
11.6.1 數(shù)據(jù)采集工具八爪魚 331
11.6.2 可視化內(nèi)容挖掘軟件ROST CM6 336
11.7 綜合案例:基于微博的用戶特征識別 337
本章小結(jié) 342
第12章 數(shù)據(jù)挖掘在客戶關(guān)系管理中的應用 343
12.1 客戶關(guān)系管理 343
12.1.1 客戶關(guān)系管理概述 343
12.1.2 客戶價值分析 344
12.1.3 客戶細分分析 345
12.1.4 市場營銷 345
12.1.5 客戶關(guān)系管理的實施流程 346
12.2 客戶生命周期分析 347
12.3 綜合案例 350
12.3.1 案例12-1:旅游公司目錄銷售 350
12.3.2 案例12-2:電信客戶細分與流失分析 354
12.3.3 案例12-3:航空公司客戶價值分析 359
本章小結(jié) 365
第13章 數(shù)據(jù)挖掘在金融領(lǐng)域的應用 366
13.1 金融科技概述 366
13.2 數(shù)據(jù)挖掘在銀行業(yè)中的應用概述 369
13.3 綜合案例:信用風險分析 372
本章小結(jié) 377
第14章 數(shù)據(jù)挖掘在財務風險分析和預警中的應用 378
14.1 數(shù)據(jù)挖掘在財務風險管理中的應用概述 378
14.2 綜合案例 380
14.2.1 案例14-1:上市公司財務報表舞弊識別 380
14.2.2 案例14-2:上市公司財務困境預警 382
本章小結(jié) 386
第15章 數(shù)據(jù)挖掘在電子商務中的應用 387
15.1 數(shù)據(jù)挖掘在電子商務中的應用概述 387
15.2 主要應用領(lǐng)域 388
15.2.1 網(wǎng)絡客戶關(guān)系管理 388
15.2.2 網(wǎng)站設(shè)計優(yōu)化 390
15.2.3 推薦系統(tǒng) 391
15.3 綜合案例 396
15.3.1 案例15-1:基于關(guān)聯(lián)分析的淘寶網(wǎng)推薦 396
15.3.2 案例15-2 電商客戶流失預警 398
本章小結(jié) 403
附錄A 數(shù)據(jù)挖掘常用資源列表 404
參考文獻 406