第3版介紹并擴展了許多主題,提供了軟件工具和數(shù)據(jù)挖掘應用程序的修訂部分;還更新了參考書目列表,供感興趣的讀者進一步研究;擴展了涉及每個章節(jié)的問題列表。
展示了如下新信息:
探索大數(shù)據(jù)和云計算 論述深度學習
包括卷積神經(jīng)網(wǎng)絡(CNN)的信息提出了強化學習
包含半監(jiān)督學習和S3VM回顧不平衡數(shù)據(jù)的模型評估
《數(shù)據(jù)挖掘概念、模型、方法和算法(第3版)》已被全球100多所大學的“數(shù)據(jù)挖掘”課程所選用,有漢語、日語、西班牙語和波斯語等多個譯本。
本書介紹了在高維數(shù)據(jù)空間中從大量數(shù)據(jù)中分析和提取信息的新技術,在前幾版的基礎上進行了大量的修訂和更新,介紹了分析大數(shù)據(jù)集的一個系統(tǒng)方法。該方法集成了統(tǒng)計、人工智能、數(shù)據(jù)庫、模式識別和計算機可視化等學科的結果。另外,深度學習技術的進步開辟了一個全新的應用領域。本書作者是該領域的著名專家,他在書中詳細解釋了近年來發(fā)展起來的基本概念、模型和方法。
自2011年本書第2版出版以來,數(shù)據(jù)挖掘領域取得了很大的進展。大數(shù)據(jù)(Big Data)這個術語被引入并被廣泛接受,用來描述收集、分析和使用大量不同數(shù)據(jù)的數(shù)量和速度。建立新的數(shù)據(jù)科學領域,可以描述先進工具和方法的所有多學科方面,可以從大數(shù)據(jù)中提取有用的和可操作的信息。本書的第3版總結了快速變化的數(shù)據(jù)挖掘領域的這些新發(fā)展,并介紹了在學術環(huán)境和高級應用程序部署中系統(tǒng)方法所需的數(shù)據(jù)挖掘原則。
雖然第3版對核心內容保持不變,但本版中重要的變化和補充突出了該領域的動態(tài),其中包括:
● 大數(shù)據(jù)、數(shù)據(jù)科學、深度學習等新課題;
● 新方法包括強化學習、云計算和MapReduce框架;
● 對不平衡數(shù)據(jù)、數(shù)據(jù)挖掘模型的公平性和聚類驗證的主觀性進行了新的強調;
● 附加的高級算法,如卷積神經(jīng)網(wǎng)絡(Convolutional Neural Networks,CNN),半虛擬支持向量機(Semisupervised Support Vector Machines,S3VM),Q學習,隨機森林,非平衡數(shù)據(jù)建模的SMOTE算法;
● 每個章節(jié)都增加了額外的示例和練習,以及參考書目、供進一步閱讀的參考資料,另外還更新了附錄。
我要感謝路易斯維爾大學計算機工程與計算機科學系數(shù)據(jù)挖掘實驗室的在校生和往屆學生,感謝他們?yōu)榈?版的編寫所做的貢獻。Tegjyot Singh Sethi和Elaheh Arabmakki根據(jù)他們的助教經(jīng)驗,為數(shù)據(jù)挖掘課程提供了以前版本的教材,并提供了評論和建議。Lingyu Lyu 和Mehmet Akif Gulum幫我校對了新版,并對該書附錄進行了大量的修改和更新。特別感謝Hanqing Hu,他幫助我準備了文本的終版本以及第3版中所有額外的圖表。本書的新版本是許多同事將以前的版本作為教材積極教學的結果。他們提供了經(jīng)驗和建議,我要感謝他們在籌備第3版的編寫過程中對我的支持和鼓勵。
希望讀者能通過這本新書,加深對現(xiàn)代數(shù)據(jù)挖掘技術及其應用的理解,并認識到該領域近面臨的挑戰(zhàn)。本書應該作為數(shù)據(jù)挖掘領域的指南,為高年級本科生或研究生、年輕的研究人員和實踐者服務。雖然每一章大致遵循一個標準的教育模板,但本書的前幾章更注重介紹基本概念,而后幾章則建立在這些章節(jié)的基礎之上,逐步介紹數(shù)據(jù)挖掘的重要的技術和方法。本書提供了基本的構建塊,將使讀者成為數(shù)據(jù)科學社區(qū)的一部分,并參與構建未來杰出的數(shù)據(jù)挖掘應用程序。
請掃描封底二維碼獲取本書參考文獻。
第2版前言
從本書第1版出版以來的7年中,數(shù)據(jù)挖掘領域在開發(fā)新技術和擴展其應用范圍方面有了長足的進步。正是數(shù)據(jù)挖掘領域中的這些變化,令筆者下定決心修訂本書的第1版,出版第2版。本版的核心內容并沒有改變,但匯總了這個快速變化的領域中的進展,呈現(xiàn)了數(shù)據(jù)挖掘在學術研究和商業(yè)應用領域的尖端技術。與第1版相比,顯著的變化是添加了如下內容:
● 一些新主題,例如集成學習、圖表挖掘、時態(tài)、空間、分布式和隱私保護等的數(shù)據(jù)挖掘;
● 一些新算法,例如分類遞歸樹(CART)、DBSCAN (Density-Based Spatial Clustering of Applications with Noise)、BIRCH(Balanced and Iterative Reducing and Clustering Using Hierarchies)、PageRank、AdaBoost、支持向量機(Support Vector Machines,SVM)、Kohonen自組織映射(Self-Organizing Maps,SOM)和潛在語義索引(Latent Semantic Indexing,LSI);
● 詳細介紹數(shù)據(jù)挖掘過程的實用方面和商用理解,討論驗證、部署、數(shù)據(jù)理解、因果關系、安全和隱私等重要問題;
● 比較數(shù)據(jù)挖掘模型的一些量化方式方法,例如ROC曲線、增益圖、ROI圖、McNemar測試和K折交叉驗證成對t測試。
本書是一本教材,因此還增加了一些新習題。這一版也更新了附錄中的內容,包含了近幾年的新成果,還反映了某個新主題得到人們的重視時所發(fā)生的變化。
筆者感謝在課堂上使用本書第1版的所有同行,以及支持我、鼓勵我和提出建議的所有人,并在新版中也采納了這些建議。筆者真誠地感謝數(shù)據(jù)挖掘實驗室和計算機科學系的所有同事和同學們,感謝他們審讀本書,并提出了許多有益的建議。特別感謝研究生Brent Wenerstrom、Chamila Walgampaya和Wael Emara,他們耐心地校對了這個新版本,討論新章節(jié)中的內容,還做了許多校正和增補。Joung Woo Ryu博士還幫助筆者完成了文字、所有新增圖和表格的終稿,筆者對此表示誠摯的感謝。
本書是面向在校生、畢業(yè)生、研究人員和相關從業(yè)人員的一本極具價值的指南。本書介紹的廣泛主題可以幫助讀者了解數(shù)據(jù)挖掘對現(xiàn)代商業(yè)、科學甚至整個社會的影響。
第1版前言
計算機、網(wǎng)絡和傳感器的現(xiàn)代技術使數(shù)據(jù)的收集和組織成為一項幾乎毫不費力的任務。但是,需要將捕獲的數(shù)據(jù)轉換為記錄數(shù)據(jù)中的信息和知識,才能使其變得有用。傳統(tǒng)上,從記錄數(shù)據(jù)中提取有用信息的任務是由分析人員完成的;然而,現(xiàn)代商業(yè)和科學中不斷增長的數(shù)據(jù)量要求使用基于計算機的方法來完成這項任務。隨著數(shù)據(jù)集在規(guī)模和復雜性上的增長,不可避免地會出現(xiàn)從直接的手工數(shù)據(jù)分析向間接的、自動化的數(shù)據(jù)分析的轉變,在這種分析中,分析人員使用更復雜、專業(yè)的工具。應用基于計算機的方法的整個過程,包括從數(shù)據(jù)中發(fā)現(xiàn)知識的新技術,通常稱為數(shù)據(jù)挖掘。
數(shù)據(jù)挖掘的重要性源于這樣一個事實:現(xiàn)代世界是一個數(shù)據(jù)驅動的世界。我們被數(shù)據(jù)、數(shù)字和其他東西包圍著,必須對這些數(shù)據(jù)進行分析和處理,把它們轉換成信息,以提供信息、指示、答案,或者幫助理解和決策。在Internet、內部網(wǎng)、數(shù)據(jù)倉庫和數(shù)據(jù)集市的時代,經(jīng)典數(shù)據(jù)分析的基本范式已經(jīng)成熟,可以進行更改了。大量的數(shù)據(jù)——數(shù)百萬甚至數(shù)億條記錄——現(xiàn)在存儲在集中的數(shù)據(jù)倉庫中,允許分析人員利用強大的數(shù)據(jù)挖掘方法更全面地檢查數(shù)據(jù)。這類數(shù)據(jù)的數(shù)量是巨大的,而且還在不斷增加,數(shù)據(jù)來源的數(shù)量實際上是無限的,涉及的領域是廣泛的,工業(yè)、商業(yè)、金融和科學活動都在產(chǎn)生這類數(shù)據(jù)。
數(shù)據(jù)挖掘的新學科已經(jīng)發(fā)展起來,尤其是從如此巨大的數(shù)據(jù)集中提取有價值的信息。近年來,從原始數(shù)據(jù)中發(fā)現(xiàn)新知識的方法呈爆炸式增長。考慮到低成本計算機(用于在軟件中實現(xiàn)這些方法)、低成本傳感器、通信和數(shù)據(jù)庫技術(用于收集和存儲數(shù)據(jù))以及精通計算機的應用程序專家(他們可以提出“有趣的”和“有用的”應用程序問題)的大量出現(xiàn),這并不奇怪。
數(shù)據(jù)挖掘技術目前是決策者的熱門選擇,因為它可以從大量的歷史數(shù)據(jù)中提供有價值的隱藏業(yè)務和科學“情報”。然而,應該記住,從根本上講,數(shù)據(jù)挖掘并不是一項新技術。從記錄數(shù)據(jù)中提取信息和知識發(fā)現(xiàn)的概念在科學和醫(yī)學研究中是一個成熟的概念。新出現(xiàn)的是一些學科和相應技術的融合,這為科學和企業(yè)界的數(shù)據(jù)挖掘創(chuàng)造了一個獨特的機會。
本書的起源是希望有一個單一的介紹來源,我們可以在其中指導學生,而不是引導他們參考多個來源。然而,我很快發(fā)現(xiàn),除了學生之外,還有很多人對匯編數(shù)據(jù)挖掘中一些重要的方法、工具和算法很感興趣。這樣的讀者包括來自各種背景和職位的人,他們需要理解大量的原始數(shù)據(jù)。這本書可以供廣泛的讀者使用,從希望學習數(shù)據(jù)挖掘的基本過程和技術的學生,到分析師和程序員,他們將直接參與所選數(shù)據(jù)挖掘應用的跨學科團隊。本書回顧了在高維數(shù)據(jù)空間中分析大量原始數(shù)據(jù),以提取決策過程中有用的新信息的技術。本書中涉及的大多數(shù)技術的定義、分類和解釋都不是新的,它們在本書后的參考資料中給出。作者的主要目標之一是采取系統(tǒng)和平衡的方法介紹數(shù)據(jù)挖掘過程的所有階段,并提供足夠的說明性例子。希望本書精心準備的示例能夠為讀者提供額外的參考和指導,幫助他們選擇和構建用于自己的數(shù)據(jù)挖掘應用程序的技術和工具。要更好地理解所介紹的大多數(shù)技術的實現(xiàn)細節(jié),需要讀者構建自己的工具或改進應用的方法和技術。
數(shù)據(jù)挖掘的教學必須強調應用方法的概念和性質,而不是如何應用不同數(shù)據(jù)挖掘工具的機械細節(jié)。盡管有這些誘人的附加功能,但僅僅基于計算機的工具永遠無法提供完整的解決方案。始終需要執(zhí)行者就如何設計整個過程以及如何使用工具和使用什么工具做出重要的決策。更深入地理解方法和模型、它們的行為方式以及為什么它們會這樣做,是有效、成功地應用數(shù)據(jù)挖掘技術的先決條件。這本書的前提是,在數(shù)據(jù)挖掘領域只有少數(shù)幾個重要的原則和問題。任何該領域的研究人員或實踐者都需要了解這些問題,以便成功地應用特定的方法、理解方法的局限性或開發(fā)新技術。本書試圖介紹和討論這些問題和原則,然后描述代表性的和流行的方法,這些方法起源于統(tǒng)計、機器學習、計算機圖形學、數(shù)據(jù)庫、信息檢索、神經(jīng)網(wǎng)絡、模糊邏輯和進化計算。
本書描述了如何好地為執(zhí)行數(shù)據(jù)挖掘準備環(huán)境,并討論了在揭示大數(shù)據(jù)集中重要的模式、趨勢和模型方面被證明是關鍵的方法。我們期望,一旦讀者學習完本書,就能夠成功和有效地在數(shù)據(jù)挖掘過程的所有階段發(fā)起和執(zhí)行基本活動。雖然很容易將重點放在技術上,但是當讀者通讀本書時,請記住,技術本身并不能提供完整的解決方案。我們編寫這本書的目的之一是盡量減少與數(shù)據(jù)挖掘相關的炒作。與其做出超出數(shù)據(jù)挖掘合理預期范圍的虛假承諾,還不如嘗試采取更客觀的方法。我們用足夠的信息描述了在數(shù)據(jù)挖掘應用中產(chǎn)生可靠和有用結果所需的過程和算法。不提倡使用任何特定的產(chǎn)品或技術;數(shù)據(jù)挖掘過程的設計者必須有足夠的背景知識來選擇合適的方法和軟件工具。
Mehmed Kantardzic
作于路易斯維爾
Mehmed Kantardzic博士,1980年獲得計算機科學博士學位,2004年起在路易斯維爾大學擔任教授,F(xiàn)任CSE(計算機科學與工程)副主席,數(shù)據(jù)挖掘實驗室主任,CSE研究生部主任。他的研究重點是數(shù)據(jù)挖掘和知識發(fā)現(xiàn)、機器學習、軟計算、點擊欺詐檢測和預防、流數(shù)據(jù)中的概念漂移以及醫(yī)療數(shù)據(jù)挖掘。Kantardzic博士的榮譽很多,研究論文獲得了許多杰出、和榮譽提名獎,教學方面則曾榮獲喜愛的教師和杰出教學獎。他曾任職于多家國際期刊的編輯委員會,是美國國家科學基金會(NSF)等多個國家科學基金會的審核員和小組成員,擔任IEEEICMLA 2018等多個國際會議的總主席或項目主席。
第1章 數(shù)據(jù)挖掘的概念 1
1.1 概述 1
1.2 數(shù)據(jù)挖掘的起源 3
1.3 數(shù)據(jù)挖掘過程 5
1.4 從數(shù)據(jù)收集到數(shù)據(jù)預處理 8
1.5 用于數(shù)據(jù)挖掘的數(shù)據(jù)倉庫 11
1.6 從大數(shù)據(jù)到數(shù)據(jù)科學 14
1.7 數(shù)據(jù)挖掘的商業(yè)方面:為什
么數(shù)據(jù)挖掘項目會失敗 17
1.8 本書結構安排 20
1.9 復習題 22
第2章 數(shù)據(jù)準備 25
2.1 原始數(shù)據(jù)的表述 25
2.2 原始數(shù)據(jù)的特性 29
2.3 原始數(shù)據(jù)的轉換 30
2.3.1 標準化 30
2.3.2 數(shù)據(jù)平整 31
2.3.3 差值和比率 32
2.4 丟失數(shù)據(jù) 32
2.5 時間相關數(shù)據(jù) 34
2.6 異常點分析 37
2.7 復習題 43
第3章 數(shù)據(jù)歸約 47
3.1 大型數(shù)據(jù)集的維度 47
3.2 特征歸約 49
3.2.1 特征選擇 51
3.2.2 特征提取 55
3.3 Relief算法 57
3.4 特征排列的熵度量 59
3.5 主成分分析 61
3.6 值歸約 63
3.7 特征離散化:ChiMerge
技術 66
3.8 案例歸約 69
3.9 復習題 71
第4章 從數(shù)據(jù)中學習 75
4.1 學習機器 76
4.2 統(tǒng)計學習原理 80
4.3 學習方法的類型 84
4.4 常見的學習任務 86
4.5 支持向量機 89
4.6 半監(jiān)督支持向量機
(S3VM) 100
4.7 k近鄰分類器 103
4.8 模型選擇與泛化 106
4.9 模型的評估 109
4.10 不均衡的數(shù)據(jù)分類 115
4.11 90%準確的情形 118
4.11.1 保險欺詐檢測 118
4.11.2 改進心臟護理 120
4.12 復習題 121
第5章 統(tǒng)計方法 125
5.1 統(tǒng)計推斷 125
5.2 評測數(shù)據(jù)集的差異 127
5.3 貝葉斯定理 130
5.4 預測回歸 132
5.5 方差分析 136
5.6 對數(shù)回歸 138
5.7 對數(shù)-線性模型 139
5.8 線性判別分析 143
5.9 復習題 144
第6章 決策樹和決策規(guī)則 149
6.1 決策樹 150
6.2 C4.5算法:生成決策樹 152
6.3 未知的屬性值 158
6.4 修剪決策樹 161
6.5 C4.5算法:生成決策
規(guī)則 163
6.6 CART算法和Gini
指標 165
6.7 決策樹和決策規(guī)則的
局限性 168
6.8 復習題 170
第7章 人工神經(jīng)網(wǎng)絡 175
7.1 人工神經(jīng)元的模型 177
7.2 人工神經(jīng)網(wǎng)絡的結構 179
7.3 學習過程 181
7.4 使用ANN完成的學習
任務 184
7.4.1 模式聯(lián)想 184
7.4.2 模式識別 185
7.4.3 函數(shù)近似 185
7.4.4 控制 185
7.4.5 過濾 186
7.4.6 預測 186
7.5 多層感知機 187
7.6 競爭網(wǎng)絡和競爭學習 193
7.7 SOM 196
7.8 深度學習 201
7.9 卷積神經(jīng)網(wǎng)絡 205
7.10 復習題 207
第8章 集成學習 211
8.1 集成學習方法論 212
8.2 多學習器組合方案 216
8.3 bagging和boosting 217
8.4 AdaBoost算法 218
8.5 復習題 220
第9章 聚類分析 223
9.1 聚類的概念 223
9.2 相似度的度量 226
9.3 凝聚層次聚類 231
9.4 分區(qū)聚類 234
9.5 增量聚類 237
9.6 DBSCAN算法 239
9.7 BIRCH算法 241
9.8 聚類驗證 244
9.9 復習題 247
第10章 關聯(lián)規(guī)則 253
10.1 購物籃分析 254
10.2 Apriori算法 255
10.3 從頻繁項集中得到關聯(lián)
規(guī)則 257
10.4 提高Apriori算法的
效率 258
10.5 FP增長方法 260
10.6 關聯(lián)分類方法 262
10.7 多維關聯(lián)規(guī)則挖掘 264
10.8 復習題 265
第11章 Web挖掘和文本挖掘 271
11.1 Web挖掘 271
11.2 Web內容、結構與使用
挖掘 273
11.3 HITS和LOGSOM
算法 275
11.4 挖掘路徑遍歷模式 280
11.5 PageRank算法 282
11.6 推薦系統(tǒng) 284
11.7 文本挖掘 285
11.8 潛在語義分析 289
11.9 復習題 293
第12章 數(shù)據(jù)挖掘高級技術 297
12.1 圖挖掘 297
12.2 時態(tài)數(shù)據(jù)挖掘 309
12.2.1 時態(tài)數(shù)據(jù)表示 311
12.2.2 序列之間的相似性
?度量 315
12.2.3 時態(tài)數(shù)據(jù)模型 316
12.2.4 挖掘序列 318
12.3 空間數(shù)據(jù)挖掘(SDM) 321
12.4 分布式數(shù)據(jù)挖掘(DDM) 325
12.5 關聯(lián)并不意味著存在因果
?關系 331
12.6 數(shù)據(jù)挖掘的隱私、安全及
法律問題 336
12.7 基于Hadoop和Map/Reduce
的云計算 341
12.8 強化學習 345
12.9 復習題 349
第13章 遺傳算法 353
13.1 遺傳算法的基本原理 354
13.2 用遺傳算法進行優(yōu)化 355
13.2.1 編碼方案和初始化 356
13.2.2 適合度估計 357
13.2.3 選擇 357
13.2.4 交叉 358
13.2.5 突變 359
13.3 遺傳算法的簡單例證 360
13.3.1 表述 360
13.3.2 初始群體 361
13.3.3 評價 361
13.3.4 交替 362
13.3.5 遺傳算子 362
13.3.6 評價(第二次迭代) 363
13.4 圖式 364
13.5 旅行推銷員問題 366
13.6 使用遺傳算法的機器
學習 368
13.6.1 規(guī)則交換 371
13.6.2 規(guī)則概化 371
13.6.3 規(guī)則特化 371
13.6.4 規(guī)則分割 371
13.7 遺傳算法用于聚類 372
13.8 復習題 374
第14章 模糊集和模糊邏輯 375
14.1 模糊集 375
14.2 模糊集的運算 380
14.3 擴展原理和模糊關系 384
14.4 模糊邏輯和模糊推理
系統(tǒng) 387
14.5 多因子評價 391
14.5.1 選擇布料的問題 391
14.5.2 教學評估的問題 392
14.6 從數(shù)據(jù)中提取模糊
模型 393
14.7 數(shù)據(jù)挖掘和模糊集 397
14.8 復習題 399
第15章 可視化方法 401
15.1 感知和可視化 401
15.2 科學可視化和信息
可視化 402
15.3 平行坐標 408
15.4 放射性可視化 410
15.5 使用自組織映射進行
可視化 412
15.6 數(shù)據(jù)挖掘的可視化
系統(tǒng) 413
15.7 復習題 417
附錄A 數(shù)據(jù)挖掘工具 419
A.1 數(shù)據(jù)挖掘期刊 419
A.2 數(shù)據(jù)挖掘會議 423
A.3 數(shù)據(jù)挖掘論壇/博客 426
A.4 數(shù)據(jù)集 428
A.4.1 分類 428
A.4.2 聚類 429
A.4.3 回歸 430
A.4.4 Web挖掘 430
A.4.5 文本挖掘 430
A.4.6 時間序列 431
A.4.7 關聯(lián)規(guī)則挖掘的
數(shù)據(jù) 431
A.5 商業(yè)與公共可用工具 431
A.5.1 免費軟件 431
A.5.2 具有試用版本的商業(yè)
軟件 433
A.5.3 沒有試用版本的商業(yè)
軟件 436
A.6 Web站點鏈接 439
A.6.1 一般Web站點 439
A.6.2 關于數(shù)據(jù)挖掘的軟件
工具的Web站點 439
A.6.3 數(shù)據(jù)挖掘供應商 441
附錄B 數(shù)據(jù)挖掘應用 447
B.1 財務數(shù)據(jù)分析的數(shù)據(jù)
挖掘 447
B.2 電信業(yè)的數(shù)據(jù)挖掘 450
B.3 零售業(yè)的數(shù)據(jù)挖掘 452
B.4 衛(wèi)生保健業(yè)和生物醫(yī)學
研究中的數(shù)據(jù)挖掘 455
B.5 科學和工程中的數(shù)據(jù)
挖掘 457
B.6 數(shù)據(jù)挖掘的缺陷 460