數(shù)據(jù)分析與數(shù)據(jù)挖掘
定 價(jià):89 元
- 作者:姜維
- 出版時(shí)間:2023/2/1
- ISBN:9787121447433
- 出 版 社:電子工業(yè)出版社
- 中圖法分類:TP274
- 頁(yè)碼:435
- 紙張:
- 版次:01
- 開本:16開
本書重點(diǎn)講述統(tǒng)計(jì)數(shù)據(jù)分析方法和數(shù)據(jù)挖掘技術(shù),在大數(shù)據(jù)時(shí)代和人工智能時(shí)代,數(shù)據(jù)驅(qū)動(dòng)的知識(shí)抽取技術(shù)成為一項(xiàng)重要學(xué)習(xí)和研究?jī)?nèi)容。本書采用理論和舉例相結(jié)合的方式進(jìn)行數(shù)據(jù)分析和數(shù)據(jù)挖掘知識(shí)講解,并配套《數(shù)據(jù)分析與數(shù)據(jù)挖掘建模工具》一書,便于理論和實(shí)踐相結(jié)合。書中內(nèi)容包括統(tǒng)計(jì)檢驗(yàn)、方差分析、回歸分析、關(guān)聯(lián)分析、分類模型、聚類模型、離群點(diǎn)分析等典型的數(shù)據(jù)分析和數(shù)據(jù)挖掘方法。
姜維,男,副教授,1978年出生,漢族,博士,博士后、哈爾濱工業(yè)大學(xué)管理科學(xué)與工程系,碩士生導(dǎo)師。2007年哈爾濱工業(yè)大學(xué)計(jì)算機(jī)學(xué)院博士畢業(yè),2010年哈爾濱工業(yè)大學(xué)管理科學(xué)與工程博士后。作為第1編著者出版著作5部。作為第一、第二作者發(fā)表論文50余篇。在計(jì)算機(jī)學(xué)報(bào)、自動(dòng)化學(xué)報(bào)、電子學(xué)報(bào)、高技術(shù)通訊、計(jì)算機(jī)集成制造、系統(tǒng)工程理論與實(shí)踐、系統(tǒng)工程與電子技術(shù)、國(guó)防科技大學(xué)學(xué)報(bào)、控制與決策等都有文章發(fā)表。發(fā)表3篇SCI國(guó)際期刊文章,20余篇EI期刊文章。目前作為負(fù)責(zé)人共完成或承擔(dān)國(guó)家自然科學(xué)基金3項(xiàng),已完成某軍口預(yù)研基金項(xiàng)目,教育部博士點(diǎn)基金、中國(guó)博士后科學(xué)基金、中央高;究蒲袑m(xiàng)項(xiàng)目,哈爾濱工業(yè)大學(xué)青年教改項(xiàng)目。作為第2負(fù)責(zé)人完成多項(xiàng)軍口項(xiàng)目:總裝備部軍口重點(diǎn)預(yù)研項(xiàng)目,某預(yù)研基金項(xiàng)目,某軍口重大專項(xiàng)項(xiàng)目,載人航天工程某項(xiàng)目。
目 錄
第1章 數(shù)據(jù)分析與數(shù)據(jù)挖掘基礎(chǔ) 1
1.1 數(shù)據(jù)分析與數(shù)據(jù)挖掘需求 1
1.1.1 數(shù)據(jù)分析與數(shù)據(jù)挖掘 1
1.1.2 大數(shù)據(jù)處理需求 2
1.1.3 數(shù)據(jù)分析誤區(qū)與隱私問(wèn)題 3
1.2 數(shù)據(jù)分析與數(shù)據(jù)挖掘的工作過(guò)程 3
1.2.1 數(shù)據(jù)分析的主要工作過(guò)程 3
1.2.2 數(shù)據(jù)收集 5
1.2.3 數(shù)據(jù)展示 6
1.3 數(shù)據(jù)的組織和數(shù)據(jù)的類型 7
1.3.1 數(shù)據(jù)的一般組織形式 7
1.3.2 數(shù)據(jù)類型 8
1.3.3 分類數(shù)據(jù)的編碼 9
1.4 數(shù)據(jù)的常用描述性統(tǒng)計(jì)量 11
1.4.1 數(shù)據(jù)的中心趨勢(shì) 11
1.4.2 數(shù)據(jù)的離散程度 12
1.4.3 數(shù)據(jù)的形態(tài)統(tǒng)計(jì)量 15
1.5 數(shù)據(jù)的基本描述性統(tǒng)計(jì)分析 18
1.5.1 數(shù)據(jù)的描述性統(tǒng)計(jì) 18
1.5.2 五數(shù)概括與盒圖 19
1.5.3 數(shù)據(jù)的描述性統(tǒng)計(jì)圖 20
1.6 本章小結(jié) 22
本章概念與關(guān)鍵詞 22
練習(xí)與思考 23
第2章 數(shù)據(jù)抽樣與推斷檢驗(yàn) 24
2.1 隨機(jī)變量概率分布 24
2.1.1 概率分布 24
2.1.2 正態(tài)分布 26
2.1.3 二項(xiàng)分布與泊松分布 28
2.1.4 幾何分布與超幾何分布 29
2.2 抽樣統(tǒng)計(jì)分析 31
2.2.1 抽樣的相關(guān)概念 31
2.2.2 概率抽樣的典型方法 33
2.2.3 非隨機(jī)抽樣的典型方法 34
2.3 基本抽樣分布 34
2.3.1 經(jīng)驗(yàn)分布、理論分布與抽樣分布 34
2.3.2 三大抽樣分布 36
2.3.3 小概率事件 38
2.4 常用的抽樣分布與區(qū)間估計(jì) 40
2.4.1 常用的統(tǒng)計(jì)量抽樣分布 40
2.4.2 置信區(qū)間與區(qū)間估計(jì) 42
2.5 常用的參數(shù)檢驗(yàn) 45
2.5.1 假設(shè)檢驗(yàn)一般過(guò)程 45
2.5.2 常用的參數(shù)檢驗(yàn)統(tǒng)計(jì)量 47
2.6 常用的單樣本非參數(shù)檢驗(yàn) 48
2.6.1 卡方檢驗(yàn) 48
2.6.2 二項(xiàng)分布檢驗(yàn) 49
2.6.3 固定參數(shù)的超幾何分布檢驗(yàn) 49
2.6.4 游程檢驗(yàn) 50
2.6.5 單樣本K-S檢驗(yàn) 54
2.7 本章小結(jié) 56
本章概念與關(guān)鍵詞 57
練習(xí)與思考 57
第3章 可視化圖與分組檢驗(yàn) 59
3.1 數(shù)據(jù)的常用可視化圖分析 59
3.1.1 數(shù)據(jù)的常用可視化圖 59
3.1.2 基于圖的可視化觀測(cè)一般過(guò)程 62
3.2 均值比較和t檢驗(yàn) 62
3.2.1 分組統(tǒng)計(jì) 62
3.2.2 數(shù)據(jù)標(biāo)準(zhǔn)化與Z-Score 63
3.2.3 單樣本t檢驗(yàn) 64
3.2.4 兩獨(dú)立樣本t檢驗(yàn) 65
3.2.5 兩配對(duì)樣本t檢驗(yàn) 67
3.3 方差齊性檢驗(yàn) 68
3.3.1 Levene方差齊性檢驗(yàn) 68
3.3.2 基于F檢驗(yàn)的方差齊性檢驗(yàn) 69
3.3.3 Brown-Forsythe方差齊性檢驗(yàn) 70
3.3.4 Bartlett’s方差齊性檢驗(yàn) 70
3.4 兩獨(dú)立樣本的非參數(shù)檢驗(yàn) 71
3.4.1 Mann-Whitney U檢驗(yàn) 71
3.4.2 兩獨(dú)立樣本K-S檢驗(yàn) 74
3.4.3 兩獨(dú)立樣本游程檢驗(yàn) 76
3.4.4 兩獨(dú)立樣本Moses極端反應(yīng)檢驗(yàn) 77
3.4.5 兩獨(dú)立樣本Brown-Mood中位數(shù)
檢驗(yàn) 78
3.5 兩配對(duì)樣本的非參數(shù)檢驗(yàn) 81
3.5.1 兩配對(duì)樣本符號(hào)檢驗(yàn) 81
3.5.2 中位數(shù)、分位數(shù)及比例的符號(hào)
檢驗(yàn) 82
3.5.3 兩配對(duì)樣本W(wǎng)ilcoxon符號(hào)秩
檢驗(yàn) 83
3.5.4 Wilcoxon符號(hào)秩單樣本檢驗(yàn) 85
3.5.5 兩配對(duì)樣本McNemar檢驗(yàn) 86
3.5.6 邊緣齊性檢驗(yàn) 88
3.6 多樣本的非參數(shù)檢驗(yàn) 88
3.6.1 多獨(dú)立樣本中位數(shù)檢驗(yàn) 88
3.6.2 多獨(dú)立樣本Kruskal-Wallis檢驗(yàn) 90
3.6.3 多獨(dú)立樣本Jonckheere-Terpstra
檢驗(yàn) 91
3.6.4 多配對(duì)樣本Friedman檢驗(yàn) 94
3.6.5 多配對(duì)樣本Kendall協(xié)同系數(shù)
檢驗(yàn) 96
3.6.6 多配對(duì)樣本Cochran’s Q檢驗(yàn) 97
3.7 本章小結(jié) 98
本章概念與關(guān)鍵詞 99
練習(xí)與思考 99
第4章 方差分析與相關(guān)性分析 102
4.1 方差分析 102
4.1.1 方差分析中的變量 102
4.1.2 單因素方差分析 103
4.1.3 單因素方差Brown-Forsythe
檢驗(yàn) 105
4.1.4 單因素方差Welch’s t檢驗(yàn) 106
4.1.5 無(wú)交互作用的雙因素方差分析 107
4.1.6 有交互作用的雙因素方差分析 109
4.2 Post Hoc檢驗(yàn) 111
4.2.1 LSD檢驗(yàn) 111
4.2.2 Studentized極差分布 112
4.2.3 Tukey’s Range檢驗(yàn) 113
4.2.4 Tukey-Kramer檢驗(yàn) 115
4.2.5 SNK檢驗(yàn) 117
4.2.6 其他幾種常用檢驗(yàn)方法 118
4.3 連續(xù)屬性數(shù)據(jù)的相關(guān)性分析 119
4.3.1 協(xié)方差的線性相關(guān)性度量 119
4.3.2 相關(guān)系數(shù)的線性相關(guān)性度量 122
4.3.3 Spearman秩相關(guān)系數(shù) 124
4.4 離散屬性相關(guān)性分析 126
4.4.1 交叉列聯(lián)表分析 126
4.4.2 用卡方檢驗(yàn)進(jìn)行離散相關(guān)性分析 127
4.4.3 列聯(lián)表上常用的指標(biāo) 128
4.4.4 Fisher’s exact檢驗(yàn) 129
4.5 本章小結(jié) 131
本章概念與關(guān)鍵詞 132
練習(xí)與思考 132
第5章 數(shù)據(jù)的預(yù)處理與距離分析 134
5.1 數(shù)據(jù)的預(yù)處理 134
5.1.1 數(shù)據(jù)清理 134
5.1.2 數(shù)據(jù)集成 136
5.1.3 數(shù)據(jù)變換 137
5.1.4 數(shù)據(jù)歸約 137
5.2 數(shù)據(jù)的常用組織方式 138
5.2.1 數(shù)據(jù)的常用邏輯組織 138
5.2.2 數(shù)據(jù)的常用物理組織 139
5.2.3 高精度計(jì)算與矩陣計(jì)算 139
5.2.4 編程語(yǔ)言、軟件工具 140
5.3 相似度計(jì)算與距離分析 140
5.3.1 相似度與距離的轉(zhuǎn)換 140
5.3.2 閔可夫斯基距離 143
5.3.3 馬氏距離 145
5.3.4 混合屬性的相似度與距離 147
5.4 kNN分類模型 148
5.4.1 kNN分類模型概述 148
5.4.2 距離加權(quán)kNN分類模型 150
5.5 參數(shù)的點(diǎn)估計(jì) 151
5.5.1 原點(diǎn)矩與中心矩 151
5.5.2 矩估計(jì)法 152
5.5.3 極大似然估計(jì)法 153
5.6 本章小結(jié) 156
本章概念與關(guān)鍵詞 156
練習(xí)與思考 156
第6章 回歸分析 158
6.1 一元線性回歸 158
6.1.1 一元線性回歸問(wèn)題描述 158
6.1.2 一元線性回歸模型與求解 159
6.1.3 確認(rèn)回歸方程的精度 161
6.1.4 總體回歸的方差分析 162
6.1.5 殘差分析 164
6.1.6 回歸方程參數(shù)檢驗(yàn) 167
6.1.7 回歸方程預(yù)測(cè)與控制 168
6.2 多元線性回歸 170
6.2.1 多元線性回歸問(wèn)題描述 170
6.2.2 多元線性回歸模型與求解 172
6.2.3 確認(rèn)回歸方程的精度 173
6.2.4 殘差分析 174
6.2.5 回歸方程參數(shù)檢驗(yàn) 175
6.2.6 回歸方程預(yù)測(cè) 176
6.3 常用的曲線回歸 177
6.3.1 曲線回歸問(wèn)題 177
6.3.2 多項(xiàng)式回歸 177
6.3.3 指數(shù)回歸與對(duì)數(shù)回歸 179
6.3.4 其他常見曲線回歸 179
6.4 最小二乘法及其應(yīng)用 179
6.4.1 最小二乘法線性擬合 179
6.4.2 偽逆矩陣求解 180
6.4.3 Moore-Pseudo逆矩陣 181
6.4.4 最小均方誤差算法 182
6.4.5 非線性回歸 183
6.4.6 智能優(yōu)化求解技術(shù) 183
6.5 Logistic回歸 184
6.5.1 Logistic回歸分類與基本函數(shù) 184
6.5.2 Logistic回歸系數(shù)計(jì)算 185
6.6 本章小結(jié) 186
本章概念與關(guān)鍵詞 187
練習(xí)與思考 187
第7章 空間降維技術(shù) 189
7.1 主成分分析 189
7.1.1 主成分分析描述 189
7.1.2 基于協(xié)方差矩陣的主成分分析 190
7.1.3 基于相關(guān)系數(shù)矩陣的主成分
分析 192
7.1.4 主成分分析與因子分析的聯(lián)系 193
7.1.5 主成分分析的作用 194
7.2 因子分析案例研究 196
7.2.1 研究的目的與內(nèi)容 196
7.2.2 變量選取與數(shù)據(jù)來(lái)源 196
7.2.3 因子分析過(guò)程 197
7.2.4 因子回歸分析 198
7.2.5 案例研究結(jié)論 199
7.3 奇異值分解 200
7.3.1 SVD的協(xié)同過(guò)濾推薦 200
7.3.2 SVD在協(xié)同過(guò)濾中的應(yīng)用 203
7.3.3 SVD增量式協(xié)同過(guò)濾方法 204
7.4 主成分回歸與逐步回歸 205
7.4.1 多重共線性 205
7.4.2 主成分回歸 207
7.4.3 逐步回歸 207
7.5 本章小結(jié) 208
本章概念與關(guān)鍵詞 208
練習(xí)與思考 209
第8章 關(guān)聯(lián)規(guī)則與點(diǎn)對(duì)相關(guān)性 210
8.1 頻繁模式與關(guān)聯(lián)規(guī)則的基本
概念 210
8.1.1 頻繁模式的基本概念 210
8.1.2 關(guān)聯(lián)規(guī)則的基本概念 211
8.1.3 極大頻繁模式與閉頻繁模式 212
8.2 頻繁模式挖掘 213
8.2.1 Apriori算法 213
8.2.2 垂直數(shù)據(jù)格式 214
8.2.3 基于頻繁模式計(jì)算關(guān)聯(lián)規(guī)則 215
8.3 頻繁模式樹 216
8.3.1 頻繁模式樹的構(gòu)建 216
8.3.2 頻繁模式樹的遞歸過(guò)程 219
8.4 點(diǎn)對(duì)相似度的典型度量 220
8.4.1 點(diǎn)對(duì)關(guān)系常見度量 220
8.4.2 點(diǎn)對(duì)相關(guān)性度量的幾種特性 222
8.5 信息熵及其應(yīng)用與點(diǎn)對(duì)相關(guān)性
度量 224
8.5.1 信息熵 224
8.5.2 聯(lián)合熵與互信息 226
8.5.3 信息增益、相對(duì)熵和交叉熵 228
8.5.4 互信息、交叉熵用于相關(guān)性 229
8.6 本章小結(jié) 230
本章概念與關(guān)鍵詞 230
練習(xí)與思考 231
第9章 決策樹 232
9.1 分類問(wèn)題與模型訓(xùn)練 232
9.1.1 分類問(wèn)題描述 232
9.1.2 分類問(wèn)題舉例與泛化問(wèn)題 233
9.1.3 分類模型的常見評(píng)價(jià)指標(biāo) 235
9.2 決策樹及ID3算法 236
9.2.1 決策樹概述 236
9.2.2 ID3算法 238
9.3 C4.5算法與連續(xù)屬性特征分
類樹 241
9.3.1 C4.5算法 241
9.3.2 連續(xù)屬性的決策樹構(gòu)建 241
9.4 CART決策樹 243
9.4.1 CART分類樹 243
9.4.2 CART回歸樹 244
9.5 決策樹剪枝 250
9.5.1 剪枝問(wèn)題的提出與先剪枝技術(shù) 250
9.5.2 錯(cuò)誤率降低剪枝法 251
9.5.3 悲觀剪枝法 251
9.5.4 代價(jià)復(fù)雜度剪枝法 254
9.6 ROC曲線與AUC指標(biāo) 255
9.6.1 ROC曲線描述與繪制 255
9.6.2 ROC曲線繪制與作用 257
9.6.3 AUC指標(biāo)與應(yīng)用 258
9.7 本章小結(jié) 259
本章概念與關(guān)鍵詞 259
練習(xí)與思考 260
第10章 貝葉斯分類 261
10.1 連續(xù)屬性貝葉斯分類器 261
10.1.1 單個(gè)連續(xù)屬性貝葉斯分類 261
10.1.2 多個(gè)連續(xù)屬性的最小總風(fēng)險(xiǎn)
決策 262
10.1.3 多個(gè)連續(xù)屬性的最小平均誤差率
決策 263
10.2 正態(tài)概率分布下的貝葉斯分
類器 264
10.2.1 分類器的判別函數(shù)表示形式 264
10.2.2 正態(tài)分布下的貝葉斯判別函數(shù) 264
10.2.3 正態(tài)分布下的貝葉斯判別舉例 265
10.3 離散屬性貝葉斯分類器 267
10.3.1 離散屬性貝葉斯模型 267
10.3.2 樸素貝葉斯分類器 267
10.4 樸素貝葉斯文本分類和TAN貝葉斯
模型 270
10.4.1 樸素貝葉斯文本分類器 270
10.4.2 TAN貝葉斯分類模型 272
10.5 貝葉斯分類器中的參數(shù)估計(jì)與非參數(shù)
估計(jì) 276
10.5.1 貝葉斯分類器中的參數(shù)估計(jì) 276
10.5.2 非參數(shù)估計(jì) 277
10.6 本章小結(jié) 278
本章概念與關(guān)鍵詞 279
練習(xí)與思考 279
第11章 特征空間與判別分析 280
11.1 特征空間 280
11.1.1 特征空間構(gòu)造 280
11.1.2 特征空間評(píng)價(jià) 282
11.1.3 特征空間變換 284
11.1.4 證據(jù)空間 285
11.2 特征提取與特征選擇 285
11.2.1 特征提取 285
11.2.2 特征選擇 285
11.2.3 jiang相關(guān)系數(shù) 286
11.2.4 過(guò)濾式特征選擇 288
11.2.5 封裝式特征選擇 288
11.2.6 嵌入式特征選擇 289
11.3 極大似然判別分析 289
11.3.1 極大似然判別分析的工作過(guò)程 289
11.3.2 極大似然判別分析的應(yīng)用舉例 290
11.4 距離判別分析 290
11.4.1 距離與相似度的常用度量 290
11.4.2 距離判別分析的工作原理 291
11.4.3 距離判別法的檢驗(yàn)與多總體距離
判別 293
11.4.4 兩總體方差是否有相同的檢驗(yàn) 294
11.4.5 加權(quán)的距離或相似度應(yīng)用于距離判別
分析與kNN分類模型 296
11.5 Fisher判別分析 296
11.5.1 兩類別的線性判別中的最佳投影
方向 296
11.5.2 兩類別的線性判別過(guò)程 298
11.5.3 多重線性判別分析 299
11.5.4 Fisher判別分析應(yīng)用舉例 301
11.6 本章小結(jié) 303
本章概念與關(guān)鍵詞 303
練習(xí)與思考 303
第12章 感知機(jī)與支持向量機(jī) 305
12.1 線性判別函數(shù) 305
12.1.1 線性判別函數(shù)表示 305
12.1.2 多重線性判別函數(shù) 306
12.1.3 廣義線性判別函數(shù) 306
12.2 感知機(jī)分類器 307
12.2.1 M-P模型 307
12.2.2 感知機(jī)結(jié)構(gòu) 308
12.2.3 感知機(jī)訓(xùn)練算法 309
12.2.4 感知機(jī)應(yīng)用舉例 312
12.3 感知機(jī)訓(xùn)練算法擴(kuò)展 313
12.3.1 感知機(jī)的典型訓(xùn)練算法 313
12.3.2 感知機(jī)松弛算法 314
12.3.3 最小均方誤差求解算法 314
12.3.4 Ho-kashyap求解算法 316
12.3.5 多分類擴(kuò)展偽逆求解 317
12.3.6 感知機(jī)的對(duì)偶形式 318
12.4 最大間隔超平面與結(jié)構(gòu)風(fēng)險(xiǎn) 319
12.4.1 最大間隔超平面 319
12.4.2 經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化與結(jié)構(gòu)風(fēng)險(xiǎn)
最小化 320
12.5 支持向量機(jī) 323
12.5.1 線性可分時(shí)的支持向量機(jī) 323
12.5.2 數(shù)據(jù)不可分時(shí)的線性SVM 327
12.5.3 非線性支持向量機(jī) 332
12.5.4 支持向量機(jī)中的其他問(wèn)題 336
12.6 本章小結(jié) 338
本章概念與關(guān)鍵詞 339
練習(xí)與思考 339
第13章 人工神經(jīng)網(wǎng)絡(luò) 341
13.1 激活函數(shù)與多層感知機(jī) 341
13.1.1 常見激活函數(shù) 341
13.1.2 多層感知機(jī)結(jié)構(gòu) 344
13.1.3 多層感知機(jī)設(shè)計(jì) 345
13.2 BP神經(jīng)網(wǎng)絡(luò) 347
13.2.1 BP神經(jīng)網(wǎng)絡(luò)及BP算法 347
13.2.2 BP算法訓(xùn)練中的注意事項(xiàng) 351
13.3 BP神經(jīng)網(wǎng)絡(luò)應(yīng)用 355
13.3.1 二分類問(wèn)題應(yīng)用 355
13.3.2 多分類問(wèn)題與擬合問(wèn)題 359
13.4 深度學(xué)習(xí) 361
13.4.1 深度學(xué)習(xí)技術(shù)環(huán)境 361
13.4.2 卷積神經(jīng)網(wǎng)絡(luò) 363
13.4.3 卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練與應(yīng)用
舉例 368
13.4.4 循環(huán)神經(jīng)網(wǎng)絡(luò) 373
13.4.5 其他深度學(xué)習(xí)技術(shù) 376
13.5 本章小結(jié) 378
本章概念與關(guān)鍵詞 379
練習(xí)與思考 379
第14章 集成學(xué)習(xí) 381
14.1 機(jī)器學(xué)習(xí)中的若干問(wèn)題 381
14.1.1 機(jī)器學(xué)習(xí)的主要任務(wù)類型 381
14.1.2 機(jī)器學(xué)習(xí)的泛化問(wèn)題 382
14.1.3 維數(shù)災(zāi)難問(wèn)題 384
14.1.4 機(jī)器學(xué)習(xí)模型的優(yōu)越性問(wèn)題 385
14.2 統(tǒng)計(jì)量重抽樣技術(shù) 386
14.2.1 偏差與方差 386
14.2.2 刀切法統(tǒng)計(jì)量估計(jì) 387
14.2.3 自助法統(tǒng)計(jì)量估計(jì) 388
14.3 分類器重抽樣技術(shù)與組合
分類器 389
14.3.1 Bagging法 389
14.3.2 Boosting法 389
14.3.3 Bagging法與Boosting法的主要
特點(diǎn) 390
14.3.4 組合分類器 390
14.4 隨機(jī)森林與Adaboost算法 393
14.4.1 隨機(jī)森林 393
14.4.2 Adaboost算法 396
14.5 分類模型中的若干問(wèn)題 397
14.5.1 用二分類器處理多分類問(wèn)題 397
14.5.2 多標(biāo)簽分類方法 399
14.5.3 類別數(shù)據(jù)不平衡問(wèn)題 400
14.5.4 單純提高精確率與單純提高
召回率的方法 401
14.6 本章小結(jié) 402
本章概念與關(guān)鍵詞 403
練習(xí)與思考 403
第15章 聚類分析與離群點(diǎn)分析 404
15.1 聚類問(wèn)題與聚類類型 404
15.1.1 聚類問(wèn)題 404
15.1.2 聚類類型 405
15.2 基于劃分的聚類 406
15.2.1 k-means聚類 406
15.2.2 k-medoids聚類 408
15.3 層次聚類 410
15.3.1 簇間距離的計(jì)算 410
15.3.2 層次聚類方法 410
15.4 基于密度的聚類 412
15.4.1 DBSCAN聚類 412
15.4.2 OPTICS聚類 415
15.5 基于網(wǎng)格的聚類與基于模型的
聚類 417
15.5.1 CLIQUE聚類 417
15.5.2 自組織神經(jīng)網(wǎng)絡(luò)聚類原理 418
15.6 離群點(diǎn)分析 420
15.6.1 離群點(diǎn)分析 420
15.6.2 離群點(diǎn)檢測(cè) 420
15.7 本章小結(jié) 421
本章概念與關(guān)鍵詞 422
練習(xí)與思考 422
附錄A Mann-Whitney U檢驗(yàn)的
臨界表 424
附錄B Wilcoxon signed-rank檢驗(yàn)按符號(hào)秩
和的臨界表 424
附錄C Wilcoxon signed-rank檢驗(yàn)按min
(正號(hào)秩,負(fù)號(hào)秩)的臨界表 425
附錄D q分布(Studentized range distribution)
的臨界表 426
附錄E Dunnett雙尾檢驗(yàn)的臨界表 428
附錄F 相關(guān)系數(shù)R和判定系數(shù)R2的
臨界表 430
附錄G 鳶尾花數(shù)據(jù)集 431
參考文獻(xiàn) 433