機(jī)器學(xué)習(xí)是人工智能的重要技術(shù)基礎(chǔ),涉及的內(nèi)容十分廣泛。本書涵蓋了機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的基礎(chǔ)知識,主要包括機(jī)器學(xué)習(xí)的概述、統(tǒng)計(jì)學(xué)基礎(chǔ)、分類、聚類、神經(jīng)網(wǎng)絡(luò)、貝葉斯網(wǎng)絡(luò)、支持向量機(jī)、文本分析、分布式機(jī)器學(xué)習(xí)算法等經(jīng)典的機(jī)器學(xué)習(xí)基礎(chǔ)知識,還包括卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、生成對抗網(wǎng)絡(luò)、目標(biāo)檢測、自編碼器等深度學(xué)習(xí)的內(nèi)容。此外,本書還介紹了機(jī)器學(xué)習(xí)的熱門應(yīng)用領(lǐng)域推薦系統(tǒng)以及強(qiáng)化學(xué)習(xí)等主題。
本書深入淺出、內(nèi)容全面、案例豐富,每章都提供Python程序代碼和習(xí)題,供讀者鞏固所學(xué)知識。另外,本書還為讀者提供了配套的微課視頻。
(1)作者來自復(fù)旦大學(xué),在國內(nèi)具有一定的影響力,常舉辦相關(guān)的培訓(xùn)和講座。
(2)教材難度適中、系統(tǒng)性強(qiáng),內(nèi)容基本覆蓋了機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的核心內(nèi)容,深入淺出,適合初學(xué)者。知識與時(shí)俱進(jìn),進(jìn)行了更新。
(3)教材配套資料齊全,包括對應(yīng)的PPT、數(shù)據(jù)素材、程序源代碼、測試題等,另外還提供配套的視頻。
(4)實(shí)踐指導(dǎo)性強(qiáng)。作者結(jié)合20多家企業(yè)的實(shí)戰(zhàn)合作項(xiàng)目實(shí)踐,提供300多道原創(chuàng)的選擇題、填空和判斷題。還有40多個(gè)實(shí)戰(zhàn)案例供讀者實(shí)驗(yàn)和實(shí)訓(xùn)。
(5)工信部“十四五”規(guī)劃教材。
趙衛(wèi)東,復(fù)旦大學(xué)副教授,主要負(fù)責(zé)本科生和各類研究生機(jī)器學(xué)習(xí)、大數(shù)據(jù)核心技術(shù)和人工智能(機(jī)器學(xué)習(xí))(商務(wù)數(shù)據(jù)分析)等課程的教學(xué),2011年紐約大學(xué)訪問學(xué)者。人工智能(機(jī)器學(xué)習(xí))被評為上海市精品課程以及CMOOC聯(lián)盟線上線下混合式教學(xué)改革項(xiàng)目,獲得2013年高等教育上海市教學(xué)成果獎(jiǎng)二等獎(jiǎng)。目前主要研究方向包括機(jī)器學(xué)習(xí)應(yīng)用和大數(shù)據(jù)分析等。主持國家自然科學(xué)基金2項(xiàng)、國家重點(diǎn)研發(fā)計(jì)劃子課題、上海市浦江人才以及企業(yè)合作課題等30多項(xiàng)目。已在Knowledge and Information Systems ,Information Processing & Management,Information Systems Frontiers,Intelligent Data Analysis,Applied Intelligence等國內(nèi)外刊物和學(xué)術(shù)會(huì)議發(fā)表論文100多篇。出版專著、教材《機(jī)器學(xué)習(xí)》《機(jī)器學(xué)習(xí)案例實(shí)戰(zhàn)》《Python機(jī)器學(xué)習(xí)實(shí)戰(zhàn)案例》等10多部。獲得上海市2015年上海市科技進(jìn)步二等獎(jiǎng)。CDA三級認(rèn)證數(shù)據(jù)科學(xué)家,騰訊云和百度云機(jī)器學(xué)習(xí)認(rèn)證講師。
第 1章 機(jī)器學(xué)習(xí)概述 1
1.1 機(jī)器學(xué)習(xí)簡介 1
1.1.1 機(jī)器學(xué)習(xí)簡史 1
1.1.2 機(jī)器學(xué)習(xí)主要流派 3
1.2 機(jī)器學(xué)習(xí)、人工智能和數(shù)據(jù)挖掘 4
1.2.1 什么是人工智能 4
1.2.2 什么是數(shù)據(jù)挖掘 5
1.2.3 機(jī)器學(xué)習(xí)、人工智能與數(shù)據(jù)挖掘的關(guān)系 6
1.3 典型機(jī)器學(xué)習(xí)應(yīng)用領(lǐng)域 6
1.4 機(jī)器學(xué)習(xí)算法 12
1.5 機(jī)器學(xué)習(xí)的一般流程 18
習(xí)題 19
第 2章 機(jī)器學(xué)習(xí)基本方法 20
2.1 統(tǒng)計(jì)分析 20
2.1.1 統(tǒng)計(jì)基礎(chǔ) 20
2.1.2 常見概率分布 25
2.1.3 參數(shù)估計(jì) 26
2.1.4 假設(shè)檢驗(yàn) 28
2.1.5 線性回歸 28
2.1.6 邏輯回歸 32
2.1.7 判別分析 33
2.1.8 非線性模型 35
2.2 高維數(shù)據(jù)降維 35
2.2.1 主成分分析 35
2.2.2 奇異值分解 38
2.2.3 線性判別分析 39
2.2.4 局部線性嵌入 42
2.2.5 拉普拉斯特征映射 43
2.3 特征工程 44
2.3.1特征構(gòu)造 44
2.3.2特征選擇 45
2.3.3特征提取 46
2.4 模型訓(xùn)練 46
2.4.1 模型訓(xùn)練常見術(shù)語 46
2.4.2 訓(xùn)練數(shù)據(jù)收集 47
2.5 可視化分析 47
2.5.1 可視化分析的作用 48
2.5.2 可視化的基本流程 48
2.5.3 可視化分析方法 48
2.5.4 可視化分析常用工具 50
2.5.5 常見的可視化圖表 51
2.5.6 可視化分析面臨的挑戰(zhàn) 61
習(xí)題 61
第3章 決策樹與分類算法 63
3.1 決策樹算法 63
3.1.1 分支處理 65
3.1.2 連續(xù)屬性離散化 70
3.1.3 過擬合問題 72
3.1.4 分類效果評價(jià) 75
3.2 集成學(xué)習(xí) 79
3.2.1 裝袋法 79
3.2.2 提升法 80
3.2.3 GBDT 81
3.2.4 XGBoost算法 82
3.2.5 隨機(jī)森林 86
3.3 決策樹應(yīng)用 88
習(xí)題 90
第4章 聚類分析 92
4.1 聚類分析概念 92
4.1.1 聚類方法分類 92
4.1.2 良好聚類算法的特征 93
4.2 聚類分析的度量 94
4.2.1 外部指標(biāo) 94
4.2.2 內(nèi)部指標(biāo) 95
4.3 基于劃分的聚類 96
4.3.1 k-均值算法 97
4.3.2 k-medoids算法 101
4.3.3 k-prototype算法 102
4.4 基于密度的聚類 102
4.4.1 DBSCAN算法 102
4.4.2 OPTICS算法 105
4.4.3 DENCLUE算法 105
4.5 基于層次的聚類 107
4.5.1 BIRCH聚類 108
4.5.2 CURE算法 110
4.6 基于網(wǎng)格的聚類 112
4.7 基于模型的聚類 113
4.7.1 概率模型聚類 113
4.7.2 模糊聚類 118
4.7.3 Kohonen神經(jīng)網(wǎng)絡(luò)聚類 118
習(xí)題 123
第5章 文本分析 124
5.1 文本分析介紹 124
5.2 文本特征提取及表示 125
5.2.1 TF-IDF 125
5.2.2 信息增益 125
5.2.3 互信息 126
5.2.4 卡方統(tǒng)計(jì)量 127
5.2.5 詞嵌入 127
5.2.6 語言模型 128
5.2.7 向量空間模型 129
5.3 知識圖譜 131
5.3.1 知識圖譜相關(guān)概念 132
5.3.2 知識圖譜的存儲(chǔ) 132
5.3.3 知識圖譜挖掘與計(jì)算 133
5.3.4 知識圖譜的構(gòu)建過程 135
5.4 詞法分析 139
5.4.1 文本分詞 139
5.4.2 命名實(shí)體識別 142
5.4.3 詞義消歧 142
5.5 句法分析 143
5.6 語義分析 145
5.7 文本分析應(yīng)用 146
5.7.1 文本分類 146
5.7.2 信息抽取 148
5.7.3 問答系統(tǒng) 149
5.7.4 情感分析 150
5.7.5 自動(dòng)摘要 151
習(xí)題 152
第6章 神經(jīng)網(wǎng)絡(luò) 153
6.1 神經(jīng)網(wǎng)絡(luò)介紹 153
6.1.1 前饋神經(jīng)網(wǎng)絡(luò) 153
6.1.2 反饋神經(jīng)網(wǎng)絡(luò) 158
6.1.3 自組織神經(jīng)網(wǎng)絡(luò) 160
6.2 神經(jīng)網(wǎng)絡(luò)相關(guān)概念 161
6.2.1 激活函數(shù) 162
6.2.2 損失函數(shù) 171
6.2.3 學(xué)習(xí)率 175
6.2.4 過擬合與網(wǎng)絡(luò)正則化 179
6.2.5 預(yù)處理 181
6.2.6 訓(xùn)練方式 182
6.2.7 模型訓(xùn)練中的問題 182
6.2.8 神經(jīng)網(wǎng)絡(luò)效果評價(jià) 190
6.3 神經(jīng)網(wǎng)絡(luò)應(yīng)用 190
習(xí)題 195
第7章 貝葉斯網(wǎng)絡(luò) 196
7.1 貝葉斯理論概述 196
7.2 貝葉斯概率基礎(chǔ) 196
7.2.1 概率論 196
7.2.2 貝葉斯概率 197
7.3 樸素貝葉斯分類模型 198
7.4 貝葉斯網(wǎng)絡(luò)推理 201
7.5 貝葉斯網(wǎng)絡(luò)的應(yīng)用 206
7.5.1 中文分詞 206
7.5.2 機(jī)器翻譯 206
7.5.3 故障診斷 207
7.5.4 疾病診斷 207
習(xí)題 209
第8章 支持向量機(jī) 210
8.1 線性可分SVM 210
8.1.1 間隔與超平面 210
8.1.2 支持向量 210
8.1.3 對偶問題求解 212
8.1.4 軟間隔 213
8.2 非線性SVM 214
8.2.1 非線性SVM原理 214
8.2.2 常見核函數(shù) 214
8.3 支持向量機(jī)應(yīng)用 215
習(xí)題 219
第9章 分布式機(jī)器學(xué)習(xí) 220
9.1 分布式機(jī)器學(xué)習(xí)基礎(chǔ) 220
9.1.1 參數(shù)服務(wù)器 220
9.1.2 分布式并行計(jì)算類型 221
9.2 分布式機(jī)器學(xué)習(xí)框架 222
9.3 并行決策樹 227
9.4 并行k-均值算法 228
習(xí)題 230
第 10章 深度學(xué)習(xí)基礎(chǔ) 231
10.1 卷積神經(jīng)網(wǎng)絡(luò) 231
10.1.1 卷積神經(jīng)網(wǎng)絡(luò)簡介 232
10.1.2 卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu) 232
10.1.3 卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練 241
10.1.4 常見卷積神經(jīng)網(wǎng)絡(luò) 243
10.2 循環(huán)神經(jīng)網(wǎng)絡(luò) 268
10.2.1 RNN基本原理 269
10.2.2 長短期記憶網(wǎng)絡(luò) 276
10.2.3 門限循環(huán)單元 280
10.2.4 循環(huán)神經(jīng)網(wǎng)絡(luò)的其他改進(jìn) 281
10.3 深度學(xué)習(xí)流行框架 284
習(xí)題 285
第 11章 高級深度學(xué)習(xí) 286
11.1 高級循環(huán)神經(jīng)網(wǎng)絡(luò) 286
11.1.1詞嵌入 286
11.1.2自注意力模型 288
11.1.3多頭注意力機(jī)制 290
11.1.4 Transformer 291
11.1.5 BERT模型 294
11.2 無監(jiān)督式深度學(xué)習(xí) 295
11.2.1 深度信念網(wǎng)絡(luò) 295
11.2.2 自動(dòng)編碼器網(wǎng)絡(luò) 297
11.3 生成對抗網(wǎng)絡(luò) 299
11.3.1 生成對抗網(wǎng)絡(luò)基本原理 299
11.3.2 常見的生成對抗網(wǎng)絡(luò) 302
11.4 遷移學(xué)習(xí) 305
11.5 對偶學(xué)習(xí) 307
習(xí)題 308
第 12章 推薦系統(tǒng) 309
12.1 推薦系統(tǒng)基礎(chǔ) 309
12.1.1 推薦系統(tǒng)的應(yīng)用場景 309
12.1.2 相似度計(jì)算 310
12.2 推薦系統(tǒng)通用模型 312
12.2.1 推薦系統(tǒng)結(jié)構(gòu) 312
12.2.2 基于人口統(tǒng)計(jì)學(xué)的推薦 313
12.2.3 基于內(nèi)容的推薦 313
12.2.4 基于協(xié)同過濾的推薦算法 314
12.2.5 基于圖的模型 316
12.2.6 基于關(guān)聯(lián)規(guī)則的推薦 318
12.2.7 基于知識的推薦 323
12.2.8 基于標(biāo)簽的推薦 324
12.3 推薦系統(tǒng)評測 325
12.3.1 評測方法 325
12.3.2 評測指標(biāo) 326
12.4 推薦系統(tǒng)常見問題 330
12.5 推薦系統(tǒng)實(shí)例 333
12.6 深度學(xué)習(xí)在推薦系統(tǒng)中的應(yīng)用 340
習(xí)題 343
第 13章 強(qiáng)化學(xué)習(xí) 345
13.1 強(qiáng)化學(xué)習(xí)概況 345
13.2 強(qiáng)化學(xué)習(xí)基礎(chǔ) 346
13.2.1 馬爾可夫鏈 346
13.2.2 強(qiáng)化學(xué)習(xí)基本概念 346
13.2.3 強(qiáng)化學(xué)習(xí)的目標(biāo)函數(shù) 348
13.2.4 價(jià)值函數(shù) 349
13.3 強(qiáng)化學(xué)習(xí)基本算法 353
13.3.1 蒙特卡洛強(qiáng)化學(xué)習(xí) 353
13.3.2 時(shí)序差分算法 355
13.3.3 SARSA算法 355
13.3.4 Q-Learning算法 356
13.4 深度強(qiáng)化學(xué)習(xí) 361
13.4.1 DQN算法 361
13.4.2 運(yùn)動(dòng)員-裁判員算法 367
習(xí)題 373