全書共包含18個章節(jié),從概率密度、貝葉斯決策理論引入樣本學習的基本概念,進而介紹了近鄰域學習、核學習及神經(jīng)網(wǎng)絡學習,在此基礎上探討了PCA學習、VC維概念、函數(shù)估計問題等,后重點介紹了非常實用的支持向量機SVM及Boosting方法。各章均包含小結、附錄、習題及參考資料,非常適合于大專院校計算機及電氣工程類碩博士研究生及高年級學生作為教學參考書。
前言本書為新興領域的統(tǒng)計學習理論提供了一個寬泛和易于理解的入門性介紹,這一領域的發(fā)展源于對模式識別和機器學習、非參數(shù)統(tǒng)計、計算機科學、語言學中的語言學習和認知心理學、哲學問題中的歸納法以及哲學和科學方法論等學科與技術的研究。
本書是學習理論與認知論課程的非常好的入門教材,目前已在普林斯頓大學電氣工程專業(yè)的教學中使用。學習理論與認知論課程并沒有特定的基礎要求,向所有對其感興趣的學生開放,包括新生、主修科學的高年級學生,以及來自工程、人文、社會科學的學生。雖然許多材料技術性較強,但是我們發(fā)現(xiàn)大部分學生可以體會和領悟本書的要點。
模式識別的工程研究關注的是基于一個有用的方法研發(fā)出的自動化系統(tǒng)來區(qū)分不同的輸入模式。為郵局開發(fā)的系統(tǒng)用于如何掃描手寫地址并將郵件排序,制造商關注如何設計一個計算機系統(tǒng)把普通的談話內(nèi)容進行文字轉錄,還有諸如計算機能否用來分析醫(yī)學圖像,進而做出診斷等此類問題。
機器學習提供了對一些模式識別問題進行求解的有效方法。它可能是采用受過訓練的系統(tǒng)來識別手寫郵政編碼,或能使自動化系統(tǒng)與用戶進行交互使其學會實現(xiàn)對語音的識別;也許是使用機器學習算法來開發(fā)一套醫(yī)學圖像分析系統(tǒng)。
機器學習和模式識別也關注學習系統(tǒng)所包含的一般原則。一種系統(tǒng)化的方法技術非常有用,因為我們并不是從無到有開發(fā)算法并在每個新的應用程序中特設某一種方式。評估一個學習系統(tǒng)的性能所采用的技術也是非常重要的。對學習算法的實踐環(huán)節(jié)而言,知道什么是可實現(xiàn)的,什么是可用的評價基準,并提出新的技術也同等重要。
這些問題也出現(xiàn)在認知論與哲學問題中。我們能學到什么?以及我們?nèi)绾芜M行學習?我們能夠從其他思想和外部世界學到什么?通過歸納法我們又能學到什么?哲學問題的歸納法關注的是如何在歸納推理的基礎上學到一些新東西。而給定的事實是歸納推理前提的真實性無法保證其結論的真實性。這個問題沒有唯一解,這并不是因為無解,而是因為有太多解,這取決于采用什么學習方法。在本書中,我們解釋了如何根據(jù)歸納形成各種不同的解決方案。
因此,我們希望本書能為廣大讀者在統(tǒng)計學習理論中提供一個簡便的入門性介紹。對于那些對學習理論或實際算法的深入研究感興趣的讀者,我們希望本書提供給他們一個有益的出發(fā)點。而對于那些對一般的認知論和哲學感興趣的讀者,我們希望本書有助于他們從其他領域中領悟一些重要的想法。對其他讀者而言,我們也希望本書有助于他們對統(tǒng)計學習理論有更深層次的理解,因為它揭示了學習的本質(zhì)及其限制,這也是人工智能的核心進展。
感謝普林斯頓大學本科教育創(chuàng)新課程發(fā)展250周年紀念基金的資助。Rajeev Kulkarni對全書提供了非常有用的意見。Joel Predd和Maya Gupta提供了許多寶貴的意見。此外,感謝Joshua Harris對本書的仔細審讀。同時也感謝幾年來,我的助教和學生們一起對該課程內(nèi)容的討論。謝謝!
目錄
譯者序
前言
第1章引言:分類、學習、
特征及應用
11范圍
12為什么需要機器學習?
13一些應用
131圖像識別
132語音識別
133醫(yī)學診斷
134統(tǒng)計套利
14測量、特征和特征向量
15概率的需要
16監(jiān)督學習
17小結
18附錄:歸納法
19問題
110參考文獻
第2章概率
21一些基本事件的概率
22復合事件的概率
23條件概率
24不放回抽取
25一個經(jīng)典的生日問題
26隨機變量
27期望值
28方差
29小結
210附錄:概率詮釋
211問題
212參考文獻
第3章概率密度
31一個二維實例
32在\[0,1\]區(qū)間的隨機數(shù)
33密度函數(shù)
34高維空間中的概率密度
35聯(lián)合密度和條件密度
36期望和方差
37大數(shù)定律
38小結
39附錄:可測性
310問題
311參考文獻
第4章模式識別問題
41一個簡單例子
42決策規(guī)則
43成功基準
44最佳分類器:貝葉斯決策
規(guī)則
45連續(xù)特征和密度
46小結
47附錄:不可數(shù)概念
48問題
49參考文獻
第5章最優(yōu)貝葉斯決策規(guī)則
51貝葉斯定理
52貝葉斯決策規(guī)則
53最優(yōu)及其評論
54一個例子
55基于密度函數(shù)的貝葉斯定理
及決策規(guī)則
56小結
57附錄:條件概率的定義
58問題
59參考文獻
第6章從實例中學習
61概率分布知識的欠缺
62訓練數(shù)據(jù)
63對訓練數(shù)據(jù)的假設
64蠻力學習方法
65維數(shù)災難、歸納偏置以及
無免費午餐原理
66小結
67附錄:學習的類型
68問題
69參考文獻
第7章最近鄰規(guī)則
71最近鄰規(guī)則
72最近鄰規(guī)則的性能
73直覺判斷與性能證明框架
74使用更多鄰域
75小結
76附錄:當人們使用最近鄰域
進行推理時的一些問題
761誰是單身漢?
762法律推理
763道德推理
77問題
78參考文獻
第8章核規(guī)則
81動機
82最近鄰規(guī)則的變體
83核規(guī)則
84核規(guī)則的通用一致性
85勢函數(shù)
86更多的通用核
87小結
88附錄:核、相似性和特征
89問題
810參考文獻
第9章神經(jīng)網(wǎng)絡:感知器
91多層前饋網(wǎng)絡
92神經(jīng)網(wǎng)絡用于學習和分類
93感知器
931閾值
94感知器學習規(guī)則
95感知器的表達能力
96小結
97附錄:思想模型
98問題
99參考文獻
第10章多層神經(jīng)網(wǎng)絡
101多層網(wǎng)絡的表征能力
102學習及S形輸出
103訓練誤差和權值空間
104基于梯度下降的誤差最小化
105反向傳播
106反向傳播方程的推導
1061單神經(jīng)元情況下的推導
1062多層網(wǎng)絡情況下的推導
107小結
108附錄:梯度下降與反射平衡
推理
109問題
1010參考文獻
第11章可能近似正確(PAC)
學習
111決策規(guī)則分類
112來自一個類中的最優(yōu)規(guī)則
113可能近似正確準則
114PAC學習
115小結
116附錄:識別不可辨元
117問題
118參考文獻
第12章VC維
121近似誤差和估計誤差
122打散
123VC維
124學習結果
125舉例
126神經(jīng)網(wǎng)絡應用
127小結
128附錄:VC維與波普爾
(Popper)維度
129問題
1210參考文獻
第13章無限VC維
131類層次及修正的PAC準則
132失配與復雜性間的平衡
133學習結果
134歸納偏置與簡單性
135小結
136附錄:均勻收斂與泛
致性
137問題
138參考文獻
第14章函數(shù)估計問題
141估計
142成功準則
143最優(yōu)估計:回歸函數(shù)
144函數(shù)估計中的學習
145小結
146附錄:均值回歸
147問題
148參考文獻
第15章學習函數(shù)估計
151函數(shù)估計與回歸問題回顧
152最近鄰規(guī)則
153核方法
154神經(jīng)網(wǎng)絡學習
155基于確定函數(shù)類的估計
156打散、偽維數(shù)與學習
157結論
158附錄:估計中的準確度、
精度、偏差及方差
159問題
1510參考文獻
第16章簡明性
161科學中的簡明性
1611對簡明性的明確倡導
1612這個世界簡單嗎?
1613對簡明性的錯誤訴求
1614對簡明性的隱性訴求
162排序假設
1621兩種簡明性排序法
163兩個實例
1631曲線擬合
1632枚舉歸納
164簡明性即表征簡明性
1641要確定表征系統(tǒng)嗎?
1642參數(shù)越少越簡單嗎?
165簡明性的實用理論
166簡明性和全局不確定性
167小結
168附錄:基礎科學和統(tǒng)計學習
理論
169問題
1610參考文獻
第17章支持向量機
171特征向量的映射
172間隔最大化
173優(yōu)化與支持向量
174實現(xiàn)及其與核方法的關聯(lián)
175優(yōu)化問題的細節(jié)
1751改寫分離條件
1752間隔方程
1753用于不可分實例的松弛
變量
1754優(yōu)化問題的重構和求解
176小結
177附錄:計算
178問題
179參考文獻
第18章集成學習
181弱學習規(guī)則
182分類器組合
183訓練樣本的分布
184自適應集成學習算法
(AdaBoost)
185訓練數(shù)據(jù)的性能
186泛化性能
187小結
188附錄:集成方法
189問題
1810參考文獻