本書是數(shù)據(jù)挖掘精髓的濃縮。第1章用通俗易懂的語言回答五個基本問題,包括什么是數(shù)據(jù),什么是大數(shù)據(jù),什么是數(shù)據(jù)挖掘,以及數(shù)據(jù)挖掘能挖掘出哪些東西和會產(chǎn)生什么價值。然后用6章的篇幅介紹k-均值、k-近鄰、樸素貝葉斯、決策樹、回歸分析和關聯(lián)規(guī)則挖掘等6種方法。第8章介紹一些實際的應用,演示簡單的數(shù)據(jù)挖掘方法如何產(chǎn)生巨大的價值。本書可供高校的數(shù)據(jù)科學與大數(shù)據(jù)、智能科學與技術、人工智能、計算機科學與技術和統(tǒng)計類、應用數(shù)學等相關專業(yè)的學生作為教材使用,也可供高校的商科大數(shù)據(jù)、金融等專業(yè)的學生、優(yōu)秀的中學生、科技企業(yè)的管理者和相關行業(yè)的投資人學習參考。
周濤,電子科技大學教授,主要從事統(tǒng)計物理與復雜性方面的研究。在Physics Reports、PNAS、Nature Communications等國際SCI期刊發(fā)表300余篇學術論文,引用18000余次,H指數(shù)為65。2009年獲教育部自然科學一等獎,2011年獲第十二屆中國青年科技獎,2014年起歷年入選Elesvier最具國際影響力中國科學家名單(物理天文類)。2015年當選第十二屆中華全國青聯(lián)常務委員,并擔任科學技術界別工作委員會副主任。2015年當選全國十大科技創(chuàng)新人物。2017年獲全國創(chuàng)新爭先獎。
目 錄
第1章 概述 1
1.1 什么是數(shù)據(jù) 1
1.2 什么是大數(shù)據(jù) 3
1.3 什么是數(shù)據(jù)挖掘 6
1.4 能挖掘出什么 8
1.5 會產(chǎn)生什么價值 10
第2章 k-均值 12
2.1 基本算法 13
2.2 k-均值示例 15
2.3 k-均值算法的局限性 21
練習賽 21
第3章 k-近鄰 24
3.1 k-近鄰基本算法 25
3.2 評價分類效果的常見指標 26
3.3 影響算法精確度的若干問題 28
3.4 k-近鄰算法示例 31
練習賽 35
第4章 樸素貝葉斯 36
4.1 貝葉斯定理 36
4.2 貝葉斯基本算法 39
4.3 貝葉斯算法案例 41
4.4 處理連續(xù)特征 45
練習賽 46
第5章 回歸 47
5.1 線性回歸的最簡示例 47
5.2 線性回歸的一般形式 53
5.3 邏輯回歸的最簡示例 55
5.4 邏輯回歸的一般形式 59
5.5 小結和討論 60
練習賽 62
第6章 決策樹 63
6.1 構建決策樹 63
6.2 經(jīng)典決策樹:ID3、C4.5和CART 66
6.3 連續(xù)值、缺失值和剪枝 70
6.4 小結和討論 75
練習賽 77
第7章 關聯(lián)規(guī)則挖掘 78
7.1 基本算法思想 78
7.2 Apriori算法示例 80
7.3 小結和討論 85
練習賽 86
第8章 數(shù)據(jù)挖掘應用創(chuàng)新案例 87
8.1 提升生產(chǎn)制造過程的良品率 87
8.2 刻畫全球化對碳排放的影響 89
8.3 捕捉電商評論中的用戶情感 91
8.4 實時發(fā)現(xiàn)微博中的熱點事件 94
推薦閱讀材料 96