在21世紀(jì),統(tǒng)計方法在范圍和影響方面都有驚人的擴展。大數(shù)據(jù)、數(shù)據(jù)科學(xué)和機器學(xué)習(xí)已經(jīng)成為新聞中常見的術(shù)語,因為統(tǒng)計方法被用于處理現(xiàn)代科學(xué)和商業(yè)的龐大數(shù)據(jù)集。我們是怎么走到這一步的?我們又將走到哪里?
本書將帶你踏上數(shù)據(jù)分析變革的振奮之旅。從經(jīng)典推斷理論(貝葉斯理論、頻率理論和Fisher理論)開始,各章節(jié)分別介紹一系列有影響力的主題,包括生存分析、廣義線性模型、經(jīng)驗貝葉斯、刀切法與自助法、錯誤發(fā)現(xiàn)率、隨機森林、神經(jīng)網(wǎng)絡(luò)、馬爾可夫鏈蒙特卡羅方法、模型選擇后的推斷等。同時以獨特的現(xiàn)代方法將方法和算法與統(tǒng)計推斷相結(jié)合,對每個主題關(guān)鍵的方法論發(fā)展及其推斷依據(jù)進行描述。此外,本書的后面章節(jié)對提升算法和深度學(xué)習(xí)等大規(guī)模預(yù)測算法進行研究,并闡述數(shù)據(jù)科學(xué)的未來方向。
本書兩位作者均為斯坦福大學(xué)知名教授,不僅對統(tǒng)計推斷理論和算法有著深刻的理解,并且有著豐富的統(tǒng)計算法教學(xué)經(jīng)驗。本書涵蓋內(nèi)容豐富,深入淺出,可作為低年級研究生的統(tǒng)計學(xué)教材。
本書以豐富的案例介紹了計算機時代下的統(tǒng)計推斷的發(fā)展脈絡(luò),從理論的角度剖析統(tǒng)計推斷的各類算法、證據(jù)等,揭示統(tǒng)計推斷如何推動當(dāng)今大數(shù)據(jù)、數(shù)據(jù)科學(xué)、機器學(xué)習(xí)等領(lǐng)域的快速發(fā)展并引領(lǐng)數(shù)據(jù)分析的變革,*后展望了統(tǒng)計學(xué)和數(shù)據(jù)科學(xué)的未來方向。
統(tǒng)計推斷是一門內(nèi)容極其廣泛的學(xué)科,實際上,它位于數(shù)學(xué)、經(jīng)驗科學(xué)和哲學(xué)三門學(xué)科的交叉點上。從貝葉斯準(zhǔn)則的發(fā)表算起,這門學(xué)科可以追溯到1763年(貝葉斯準(zhǔn)則代表了這一學(xué)科的哲學(xué)層面,該準(zhǔn)則的早期倡導(dǎo)者認(rèn)為它是上帝存在的論據(jù))。從20世紀(jì)50年代到現(xiàn)在,我們書名所指的計算機時代是指這250年歷史中的最近四分之一。在這個時代,統(tǒng)計應(yīng)用的傳統(tǒng)瓶頸計算,發(fā)展得愈發(fā)迅速。
本書是對過去60年統(tǒng)計如何演變的一個綜述,但是對于這樣一門內(nèi)容廣泛的學(xué)科,我們只不過是從一架小型飛機的高度進行俯瞰,而不是從噴氣式飛機或衛(wèi)星的高度來觀察。各個章節(jié)分別介紹了一系列有影響力的論題,包括廣義線性模型、生存分析、刀切法與自助法、錯誤發(fā)現(xiàn)率、經(jīng)驗貝葉斯、馬爾可夫鏈蒙特卡羅方法、神經(jīng)網(wǎng)絡(luò)等。與此同時,我們將對每個論題關(guān)鍵的方法論發(fā)展及其推斷依據(jù)進行描述。
不用多說,計算將是我們故事的核心話題,但是這并不意味著每一項進展都與計算機有關(guān)。正如一座橋已連通到一個新的大陸,但并不是所有人都渴望通過這座橋。諸如經(jīng)驗貝葉斯和James-Stein估計的話題已經(jīng)在力學(xué)計算的約束下出現(xiàn)。其他話題,例如自助法和比例風(fēng)險,才是計算機時代下新生的事物。在21世紀(jì)的統(tǒng)計學(xué)中,幾乎所有的論題都依賴于計算機,但是要進入新千年的話題,我們這架小型飛機仍需飛一段時間。
統(tǒng)計推斷在字典里的定義傾向于將其與整個學(xué)科等同起來。但在龐大的基于計算機處理算法所引導(dǎo)的大數(shù)據(jù)時代,這一定義已經(jīng)變得不那么令人滿意了。在此,我們將嘗試把統(tǒng)計學(xué)的兩個方面分開,即使這種劃分方式并非總是一致的:針對特定問題領(lǐng)域的算法發(fā)展,例如使用隨機森林進行預(yù)測,與其支持的推理論據(jù),這兩者截然不同。
從廣義上講,算法是統(tǒng)計學(xué)家所做的,而推斷則說明他們?yōu)槭裁匆@樣做。數(shù)據(jù)科學(xué)作為統(tǒng)計事業(yè)的一個特別有活力的品牌,在新世紀(jì)中蓬勃發(fā)展,它強調(diào)算法思維而不是推斷理由。本書后面的章節(jié)將對提升算法和深度學(xué)習(xí)等大規(guī)模預(yù)測算法進行研究,并闡述數(shù)據(jù)科學(xué)的觀點(有關(guān)統(tǒng)計學(xué)和數(shù)據(jù)科學(xué)的聯(lián)系,請參閱本書后記)。
生物推斷、天文推斷或地質(zhì)推斷這樣的論題是不存在的。那為什么我們需要統(tǒng)計推斷呢?答案很簡單:自然科學(xué)有著判斷想法準(zhǔn)確性的天性。統(tǒng)計學(xué)比自然科學(xué)晚一步,它大多數(shù)時候是在解釋自然科學(xué)家的觀察結(jié)果。如果沒有大自然作為無私的裁判,我們就需要一個用于指導(dǎo)和糾正的數(shù)學(xué)邏輯體系。統(tǒng)計推斷就是這樣一個從兩個半世紀(jì)的數(shù)據(jù)分析經(jīng)驗中提煉出來的系統(tǒng)。
本書按照歷史進程分為三個部分:第一部分回顧了經(jīng)典推斷、貝葉斯理論、頻率理論和Fisher理論,它們都是在電子計算時代之前產(chǎn)生的,現(xiàn)代實踐在不改變基本理論框架的情況下大大擴展了它們的應(yīng)用范圍(可以與古典和現(xiàn)代文學(xué)類比);第二部分關(guān)注從20世紀(jì)50年代到90年代早期的計算機時代的發(fā)展,作為一個過渡時期,這是在理論和實踐中最容易看到快速計算對統(tǒng)計方法學(xué)進展有無影響的時期;第三部分,也就是21世紀(jì)的話題,把這個故事帶到當(dāng)下,我們所處的是一個算法蓬勃發(fā)展的時代(機器學(xué)習(xí)是令人不安的流行用語),解釋算法的原理是現(xiàn)代統(tǒng)計推斷的持續(xù)任務(wù)。
本書既不是目錄,也不是百科全書,書中各個話題的選取是為計算方法和推斷理論之間的相互作用提供恰當(dāng)?shù)睦C。一些不包含在本書中的話題,譬如時間序列、一般估計方程、因果推斷、圖模型和實驗設(shè)計,自然也有著自己的意義。無論如何,并不是本書中提出的主題才是唯一值得討論的。
同樣沒有充分解釋的還有漸近和決策理論,它們是這個領(lǐng)域的數(shù)學(xué)統(tǒng)計方面。我們的目的是將本書保持在一個適合碩士級別統(tǒng)計學(xué)者或一年級博士生的技術(shù)水平。不可避免地,部分內(nèi)容將涉及更困難的領(lǐng)域,這些困難更多的來自統(tǒng)計思想的本質(zhì),而不是數(shù)學(xué)。讀者如果發(fā)現(xiàn)我們的小飛機在某個話題上盤旋太久,應(yīng)該毫不猶豫地繼續(xù)向后閱讀。在大多數(shù)情況下,章節(jié)彼此獨立(盡管有一個連貫的整體主題)。這特別適用于那些因為對某個特定主題感興趣而選擇了本書的非統(tǒng)計學(xué)家,如僅對生存分析或提升算法感興趣的讀者。
如果要求一個有用的學(xué)科滿足各種用戶的需求,則會有失去核心的風(fēng)險。盡管外部需求不斷上升,統(tǒng)計學(xué)在大部分的內(nèi)容上仍然保持著其哲學(xué)凝聚力。實際上,這個領(lǐng)域的核心在過去60年中已從基于數(shù)學(xué)和邏輯的傳統(tǒng)焦點轉(zhuǎn)向了一個更為計算化的焦點。本書將在各個話題上研究這一轉(zhuǎn)變,除了在本書后記中討論數(shù)據(jù)科學(xué)時略微給出一些討論之外,這里不會嘗試給出在未來會發(fā)生什么?這個有趣問題的答案。
致 謝
我們感謝Cindy Kirby在籌備本書時所做的嫻熟工作,以及GalitShmueli對早期草案的有益評論。非常感謝劍橋大學(xué)出版社出色的文案編輯Steven Holt,感謝Clare Dennison在制作階段始終指導(dǎo)我們,以及本書的編輯Diana Gillooly不懈地支持我們。
Bradley Efron
Trevor Hastie
2016年5月于斯坦福大學(xué)統(tǒng)計系
Bradley Efron是斯坦福大學(xué) Max H. Stein 教授,統(tǒng)計學(xué)教授和生物醫(yī)學(xué)數(shù)據(jù)科學(xué)教授。他曾在哈佛大學(xué),加州大學(xué)伯克利分校和倫敦帝國理工學(xué)院擔(dān)任過訪問教師。Efron在統(tǒng)計推斷理論方面進行了廣泛的研究,并且是自舉采樣技術(shù)的發(fā)明者。他于 2005 年獲得了國家科學(xué)獎?wù),并?2014 年獲得了皇家統(tǒng)計學(xué)會的金獎。
Trevor Hastie 是斯坦福大學(xué)的 John A. Overdeck教授,統(tǒng)計學(xué)教授和生物醫(yī)學(xué)數(shù)據(jù)科學(xué)教授。他是統(tǒng)計學(xué)習(xí)要素的合著者,這是現(xiàn)代數(shù)據(jù)分析領(lǐng)域的重要著作。他還因其在廣義加性模型和主曲線方面的工作以及他對 R 計算環(huán)境的貢獻而聞名。Hastie
在 2014 年獲得了 Emmanuel 和 Carol Parzen的統(tǒng)計創(chuàng)新獎。
贊譽
譯者序
前言
致謝
第一部分 經(jīng)典統(tǒng)計推斷
第1章 算法與推斷2
1.1 一個回歸的例子3
1.2 假設(shè)檢驗5
1.3 注釋7
注釋7
第2章 頻率學(xué)派推斷8
2.1 實踐中的頻率學(xué)派9
2.2 頻率學(xué)意義下的最優(yōu)化12
2.3 注釋與細(xì)節(jié)13
注釋13
第3章 貝葉斯推斷14
3.1 兩個例子15
3.2 無信息先驗分布18
3.3 頻率學(xué)派推斷的缺陷19
3.4 貝葉斯學(xué)派/頻率學(xué)派的對比列表21
3.5 注釋與細(xì)節(jié)23
注釋23
第4章 Fisher推斷和最大似然估計24
4.1 似然和最大似然24
4.2 Fisher信息和MLE26
4.3 條件推斷28
4.4 排列和隨機化31
4.5 注釋與細(xì)節(jié)32
注釋32
第5章 參數(shù)模型和指數(shù)族34
5.1 單變量族34
5.2 多元正態(tài)分布36
5.3 多參數(shù)分布族的Fisher信息量邊界38
5.4 多項分布39
5.5 指數(shù)型分布族41
5.6 注釋與細(xì)節(jié)44
注釋44
第二部分 計算機時代早期方法
第6章 經(jīng)驗貝葉斯48
6.1 Robbins公式48
6.2 物種遺漏問題50
6.3 一個醫(yī)學(xué)上的例子54
6.4 間接證據(jù)156
6.5 注釋與細(xì)節(jié)57
注釋57
第7章 James-Stein估計和嶺回歸59
7.1 James-Stein估計59
7.2 棒球運動員61
7.3 嶺回歸63
7.4 間接證據(jù)266
7.5 注釋和細(xì)節(jié)68
注釋68
第8章 廣義線性模型與回歸樹70
8.1 邏輯回歸70
8.2 廣義線性模型75
8.3 泊松回歸78
8.4 回歸樹80
8.5 注釋與細(xì)節(jié)82
注釋83
第9章 生存分析和EM算法85
9.1 生命表和風(fēng)險率85
9.2 刪失數(shù)據(jù)和Kaplan-Meier估計87
9.3 對數(shù)秩檢驗91
9.4 比例風(fēng)險模型93
9.5 缺失數(shù)據(jù)和EM算法95
9.6 注釋與細(xì)節(jié)98
注釋98
第10章 刀切法與自助法101
10.1 標(biāo)準(zhǔn)差的刀切法估計101
10.2 非參數(shù)的自助法103
10.3 重抽樣方案106
10.4 參數(shù)自助法110
10.5 影響函數(shù)與魯棒估計112
10.6 注釋與細(xì)節(jié)115
注釋115
第11章 自助法置信區(qū)間117
11.1 Neyman的單參數(shù)問題的構(gòu)建117
11.2 百分位方法120
11.3 偏差校正置信區(qū)間122
11.4 二階精度124
11.5 自助t區(qū)間126
11.6 目標(biāo)貝葉斯區(qū)間和置信分布127
11.7 注釋與細(xì)節(jié)131
注釋131
第12章 交叉驗證與預(yù)測誤差的Cp估計134
12.1 預(yù)測規(guī)則134
12.2 交叉驗證137
12.3 協(xié)方差懲罰140
12.4 訓(xùn)練、驗證與短期預(yù)測因子146
12.5 注釋與細(xì)節(jié)148
注釋148
第13章 客觀貝葉斯推斷和馬爾可夫鏈蒙特卡羅方法150
13.1 客觀先驗分布150
13.2 共軛先驗分布152
13.3 模型選擇與貝葉斯信息準(zhǔn)則156
13.4 Gibbs抽樣和MCMC161
13.5 示例:模擬人口混合165
13.6 注釋與細(xì)節(jié)167
注釋167
第14章 戰(zhàn)后時代的統(tǒng)計推斷與方法論169
注釋171
第三部分 21世紀(jì)的話題
第15章 大規(guī)模假設(shè)檢驗和錯誤發(fā)現(xiàn)率174
15.1 大規(guī)模假設(shè)檢驗174
15.2 錯誤發(fā)現(xiàn)率176
15.3 經(jīng)驗貝葉斯大規(guī)模假設(shè)檢驗178
15.4 局部錯誤發(fā)現(xiàn)率181
15.5 原假設(shè)分布的選擇183
15.6 關(guān)聯(lián)性186
15.7 注釋與細(xì)節(jié)188
注釋188
第16章 稀疏建模和套索191
16.1 前向逐步回歸191
16.2 套索194
16.3 擬合套索模型197
16.4 最小角回歸198
16.5 擬合廣義的套索模型200
16.6 套索的選擇后推斷202
16.7 聯(lián)系和擴展203
16.8 注釋與細(xì)節(jié)205
注釋205
第17章 隨機森林和提升207
17.1 隨機森林207
17.2 平方誤差損失的提升212
17.3 梯度提升216
17.4 Adaboost:原始的提升算法218
17.5 聯(lián)系和擴展220
17.6 注釋與細(xì)節(jié)221
注釋222
第18章 神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)224
18.1 神經(jīng)網(wǎng)絡(luò)與手寫數(shù)字問題225
18.2 擬合一個網(wǎng)絡(luò)226
18.3 自動編碼器230
18.4 深度學(xué)習(xí)231
18.5 學(xué)習(xí)一個深層網(wǎng)絡(luò)234
18.6 注釋與細(xì)節(jié)235
注釋236
第19章 支持向量機和核方法238
19.1 最優(yōu)超平面238
19.2 軟間隔分類器240
19.3 作為損失加懲罰的支持向量機準(zhǔn)則241
19.4 計算以及核技巧242
19.5 利用核的函數(shù)擬合244
19.6 實例:用于蛋白質(zhì)分類的字符串核函數(shù)244
19.7 支持向量機:結(jié)束語245
19.8 核平滑和局部回歸246
19.9 注釋與細(xì)節(jié)247
注釋248
第20章 模型選擇后的推斷250
20.1 同時置信區(qū)間251
20.2 模型選擇后的準(zhǔn)確率255
20.3 選擇的偏差258
20.4 貝葉斯頻率學(xué)組合估計260
20.5 注釋與細(xì)節(jié)263
注釋264
第21章 經(jīng)驗貝葉斯估計策略266
21.1 貝葉斯反卷積266
21.2 g-建模和估計267
21.3 似然、正則化和準(zhǔn)確性269
21.4 兩個例子272
21.5 廣義線性混合模型276
21.6 反卷積和f-建模278
21.7 注釋與細(xì)節(jié)280
注釋280
后記282
參考文獻286