本書介紹大量特征工程技術(shù),闡明特征工程的基本原則。主要內(nèi)容包括:機(jī)器學(xué)習(xí)流程中
的基本概念,數(shù)值型數(shù)據(jù)的基礎(chǔ)特征工程,自然文本的特征工程,詞頻- 逆文檔頻率,高效的分類變量編碼技術(shù),主成分分析,模型堆疊,圖像處理,等等。
特征工程是機(jī)器學(xué)習(xí)流程中至關(guān)重要的一個(gè)環(huán)節(jié),然而專門討論這個(gè)話題的著作卻很少。本書旨在填補(bǔ)這一空白,著重闡明特征工程的基本原則,介紹大量特征工程技術(shù),教你從原始數(shù)據(jù)中提取出正確的特征并將其轉(zhuǎn)換為適合機(jī)器學(xué)習(xí)模型的格式,從而輕松構(gòu)建模型,增強(qiáng)機(jī)器學(xué)習(xí)算法的效果。
然而,本書并非單純地講述特征工程的基本原則,而是通過大量示例和練習(xí)將重點(diǎn)放在了實(shí)際應(yīng)用上。每一章都集中研究一個(gè)數(shù)據(jù)問題:如何表示文本數(shù)據(jù)或圖像數(shù)據(jù),如何為自動生成的特征降低維度,何時(shí)以及如何對特征進(jìn)行標(biāo)準(zhǔn)化,等等。最后一章通過一個(gè)完整的例子演示了多種特征工程技術(shù)的實(shí)際應(yīng)用。書中所有代碼示例均是用Python編寫的,涉及NumPy、Pandas、scikit-learn和Matplotlib等程序包。
- 數(shù)值型數(shù)據(jù)的特征工程:過濾、分箱、縮放、對數(shù)變換和指數(shù)變換
- 自然文本技術(shù):詞袋、n元詞與短語檢測
- 基于頻率的過濾和特征縮放
- 分類變量編碼技術(shù):特征散列化與分箱計(jì)數(shù)
- 使用主成分分析的基于模型的特征工程
- 模型堆疊與k-均值特征化
- 圖像特征提取:人工提取與深度學(xué)習(xí)
愛麗絲·鄭(Alice Zheng) 亞馬遜廣告平臺建模和優(yōu)化團(tuán)隊(duì)負(fù)責(zé)人,應(yīng)用機(jī)器學(xué)習(xí)、生成算法和平臺開發(fā)領(lǐng)域的技術(shù)領(lǐng)dao者,前微軟研究院機(jī)器學(xué)習(xí)研究員。
阿曼達(dá)·卡薩麗(Amanda Casari) 谷歌云開發(fā)者關(guān)系工程經(jīng)理,曾是Concur Labs的產(chǎn)品經(jīng)理和數(shù)據(jù)科學(xué)家,在數(shù)據(jù)科學(xué)、機(jī)器學(xué)習(xí)、復(fù)雜系統(tǒng)和機(jī)器人等多個(gè)領(lǐng)域都有豐富經(jīng)驗(yàn)。
前言 ix
第 1 章 機(jī)器學(xué)習(xí)流程 1
1.1 數(shù)據(jù) 1
1.2 任務(wù) 1
1.3 模型 2
1.4 特征 3
1.5 模型評價(jià) 3
第 2 章 簡單而又奇妙的數(shù)值 4
2.1 標(biāo)量、向量和空間 5
2.2 處理計(jì)數(shù) 7
2.2.1 二值化 7
2.2.2 區(qū)間量化(分箱) 9
2.3 對數(shù)變換 13
2.3.1 對數(shù)變換實(shí)戰(zhàn) 16
2.3.2 指數(shù)變換:對數(shù)變換的推廣 19
2.4 特征縮放/ 歸一化 24
2.4.1 min-max 縮放 24
2.4.2 特征標(biāo)準(zhǔn)化/ 方差縮放 24
2.4.3 2
歸一化 25
2.5 交互特征 28
2.6 特征選擇 30
2.7 小結(jié) 31
2.8 參考文獻(xiàn) 32
第3 章 文本數(shù)據(jù):扁平化、過濾和分塊 33
3.1 元素袋:將自然文本轉(zhuǎn)換為扁平向量 34
3.1.1 詞袋 34
3.1.2 n 元詞袋 37
3.2 使用過濾獲取清潔特征 39
3.2.1 停用詞 39
3.2.2 基于頻率的過濾 40
3.2.3 詞干提取 42
3.3 意義的單位:從單詞、n 元詞到短語 43
3.3.1 解析與分詞 43
3.3.2 通過搭配提取進(jìn)行短語檢測 44
3.4 小結(jié) 50
3.5 參考文獻(xiàn) 51
第4 章 特征縮放的效果:從詞袋到tf-idf 52
4.1 tf-idf:詞袋的一種簡單擴(kuò)展 52
4.2 tf-idf 方法測試 54
4.2.1 創(chuàng)建分類數(shù)據(jù)集 55
4.2.2 使用tf-idf 變換來縮放詞袋 56
4.2.3 使用邏輯回歸進(jìn)行分類 57
4.2.4 使用正則化對邏輯回歸進(jìn)行調(diào)優(yōu) 58
4.3 深入研究:發(fā)生了什么 62
4.4 小結(jié) 64
4.5 參考文獻(xiàn) 64
第5 章 分類變量:自動化時(shí)代的數(shù)據(jù)計(jì)數(shù) 65
5.1 分類變量的編碼 66
5.1.1 one-hot 編碼 66
5.1.2 虛擬編碼 66
5.1.3 效果編碼 69
5.1.4 各種分類變量編碼的優(yōu)缺點(diǎn) 70
5.2 處理大型分類變量 70
5.2.1 特征散列化 71
5.2.2 分箱計(jì)數(shù) 73
5.3 小結(jié) 79
5.4 參考文獻(xiàn) 80
第6 章 數(shù)據(jù)降維:使用PCA 擠壓數(shù)據(jù) 82
6.1 直觀理解 82
6.2 數(shù)學(xué)推導(dǎo) 84
6.2.1 線性投影 84
6.2.2 方差和經(jīng)驗(yàn)方差 85
6.2.3 主成分:第 一種表示形式 86
6.2.4 主成分:矩陣- 向量表示形式 86
6.2.5 主成分的通用解 86
6.2.6 特征轉(zhuǎn)換 87
6.2.7 PCA 實(shí)現(xiàn) 87
6.3 PCA 實(shí)戰(zhàn) 88
6.4 白化與ZCA 89
6.5 PCA 的局限性與注意事項(xiàng) 90
6.6 用例 91
6.7 小結(jié) 93
6.8 參考文獻(xiàn) 93
第7 章 非線性特征化與k-均值模型堆疊 94
7.1 k-均值聚類 95
7.2 使用聚類進(jìn)行曲面拼接 97
7.3 用于分類問題的k-均值特征化 100
7.4 優(yōu)點(diǎn)、缺點(diǎn)以及陷阱 105
7.5 小結(jié) 107
7.6 參考文獻(xiàn) 107
第8 章 自動特征生成:圖像特征提取和深度學(xué)習(xí) 108
8.1 最簡單的圖像特征(以及它們因何失效) 109
8.2 人工特征提。篠IFT 和HOG 110
8.2.1 圖像梯度 110
8.2.2 梯度方向直方圖 113
8.2.3 SIFT 體系 116
8.3 通過深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)圖像特征 117
8.3.1 全連接層 117
8.3.2 卷積層 118
8.3.3 ReLU 變換 122
8.3.4 響應(yīng)歸一化層 123
8.3.5 池化層 124
8.3.6 AlexNet 的結(jié)構(gòu) 124
8.4 小結(jié) 127
8.5 參考文獻(xiàn) 128
第9 章 回到特征:建立學(xué)術(shù)論文推薦器 129
9.1 基于項(xiàng)目的協(xié)同過濾 129
9.2 第 一關(guān):數(shù)據(jù)導(dǎo)入、清理和特征解析 130
9.3 第二關(guān):更多特征工程和更智能的模型 136
9.4 第三關(guān):更多特征= 更多信息 141
9.5 小結(jié) 144
9.6 參考文獻(xiàn) 144
附錄A 線性建模與線性代數(shù)基礎(chǔ) 145
A.1 線性分類概述 145
A.2 矩陣的解析 147
A.2.1 從向量到子空間 148
A.2.2 奇異值分解(SVD) 150
A.2.3 數(shù)據(jù)矩陣的四個(gè)基本子空間 151
A.3 線性系統(tǒng)求解 153
A.4 參考文獻(xiàn) 155
作者簡介 156
封面簡介 156