《數據挖掘算法與Clementine實踐》主要介紹了幾種最成熟的數據挖掘方法,并針對每種方法,介紹了應用最廣泛的幾種實現(xiàn)算法。書中以Clementine12.0為平臺,用實例介紹了每種算法的具體應用。全書各章分別介紹了數據挖掘和Clementine軟件、決策樹分類方法(包括ID3、C4.5、C5.0、CART等算法)、聚類分析方法(包括K-Means算法和TwoStep算法)、關聯(lián)規(guī)則挖掘方法(包括Apriori算法、CARMA算法和序列模式挖掘算法)、數據篩選算法(包括特征選擇算法和異常檢測算法)、回歸分析方法(包括線性回歸算法和二項Logistic回歸)、神經網絡構建方法(包括多層感知器網絡、RBF網絡以及Kohonen網絡的構建算法)、時間序列分析方法(包括指數平滑法和ARIMA模型構建方法)。
21世紀是信息爆炸的時代。從紛雜無章的數據中發(fā)現(xiàn)潛在的知識,進而提供決策支持,是許多企業(yè)、部門增強自身競爭力的有力手段。數據挖掘作為重要的知識發(fā)現(xiàn)技術,經過幾十年的發(fā)展,在理論上積累了豐碩的成果,許多高效的、智能的數據挖掘算法被提出并不斷得到改進和完善。同時,專用的或者通用的數據挖掘工具也不斷被推出和升級。因此,數據挖掘技術在電信、金融、信息安全等許多領域得到了廣泛的應用。
本書在內容安排上以理論聯(lián)系實際為指導原則。在理論上,著重介紹幾種最成熟的數據挖掘方法,針對每種方法,則介紹應用最廣泛的幾種實現(xiàn)算法。在實踐上,以Clementine 12.0為平臺,用實例介紹每種算法的具體應用方法。
本書共分為9章。第1章和第2章分別對數據挖掘和Clementine軟件進行簡要的介紹。第3~9章中每章介紹一種數據挖掘方法。第3章介紹決策樹分類方法,以及構建決策樹的C4.5算法和CART算法;第4章介紹聚類分析方法,以及實現(xiàn)聚類分析的K-Means算法和TwoStep算法;第5章介紹關聯(lián)規(guī)則挖掘方法,包括經典的Apriori算法、CARMA算法以及序列模式挖掘算法;第6章介紹了兩種數據篩選算法,即特征選擇算法和異常檢測算法;第7章介紹了回歸分析方法,包括線性回歸方法和Logistic回歸方法;第8章介紹了神經網絡建模方法,以及用于構建神經網絡的多層感知器方法、徑向基函數網絡構建方法和用于聚類分析的Kohonen網絡構建方法;第9章介紹時間序列分析方法,包括指數平滑法和ARIMA模型的構建方法。
本書各章中的實驗數據集可在http://jsjsyzx.znufe.edu.cn/downloads/dataset.rar下載。
本書得到中央高;究蒲袠I(yè)務費專項資金資助。
由于作者自身水平有限,本書定有不妥及不足之處,懇請讀者及專家批評指正。
作 者
2008年5月
??
??
??
??
前言 III
第1章 數據挖掘概述
1.1 數據挖掘簡介
1.2 數據挖掘過程
1.3 數據挖掘方法
1.4 數據挖掘工具及軟件
第2章 clementine概述
2.1 clementine簡介
2.2 clementine基本操作
第3章 決策樹
3.1 分類與決策樹概述
3.2 id3、c4.5與c5.0
3.3 cart
第4章 聚類分析
4.1 聚類分析概述
4.2 k-means算法
4.3 twostep算法
第5章 關聯(lián)規(guī)則
5.1 關聯(lián)規(guī)則概述
5.2 apriori算法
5.3 carma算法
5.4 序列模式
第6章 數據篩選
6.1 特征選擇
6.2 異常檢測
第7章 統(tǒng)計模型
7.1 線性回歸
7.2 項logistic回歸
第8章 神經網絡
8.1 神經網絡原理
8.2 多層感知器與rbf網絡
8.3 kohonen網絡
第9章 時間序列分析與預測
9.1 時間序列概述
9.2 指數平滑法
9.3 arima模型
參考文獻