穩(wěn)健回歸是一套接近密集計(jì)算型的現(xiàn)代技術(shù),還能作為探測潛在問題案例的有用的診斷工具!冬F(xiàn)代穩(wěn)健回歸方法》界定了一些對(duì)于理解估計(jì)的穩(wěn)健性至關(guān)重要的術(shù)語,列出了異常觀察案例及偏態(tài)分布影響OLS估計(jì)的不同方式,討論了各種線性模型穩(wěn)健回歸方法及其限制,以及穩(wěn)健回歸估計(jì)的標(biāo)準(zhǔn)誤,簡要描述了廣義線性模型和在這種模型中探測異常觀察案例的幾種診斷法。
在社會(huì)科學(xué)中,現(xiàn)代穩(wěn)健及耐抗性回歸方法還不太為人所知。這些方法之所以被稱為現(xiàn)代方法,是因?yàn)樗鼈兺ǔ儆诿芗陀?jì)算,這是當(dāng)前很多依賴今天的高速電腦的統(tǒng)一方法的一個(gè)特征!冬F(xiàn)代穩(wěn)健回歸方法》通過一套統(tǒng)一的符號(hào)系統(tǒng),介紹了不同來源的多種穩(wěn)健回歸方法,以及它們彼此之間的聯(lián)系。在主要統(tǒng)計(jì)軟件如SAS和Stata已經(jīng)采用這些蕞新回歸方法的情況下,本書顯得非常及時(shí)。
1886年,弗蘭西斯?高爾頓(Francis Galton)發(fā)表了題為遺傳身高向普通回歸(Regression Towads Mediocrity in Hereditary Stature)的開創(chuàng)性文章,從而開啟了今天我們所知的線性回歸統(tǒng)計(jì)方法的發(fā)展歷程。通過分析205對(duì)父母及928個(gè)小孩的數(shù)據(jù),高爾頓發(fā)現(xiàn)相對(duì)較高或較矮的父母生養(yǎng)的小孩傾向于不是那么高或矮,這一特征被統(tǒng)計(jì)術(shù)語概括為向均值回歸。
為了演示回歸是如何處理此類身高數(shù)據(jù)的,我使用了一套相似但只有一個(gè)性別的數(shù)據(jù),這應(yīng)歸功于高爾頓的徒弟卡爾?皮爾森(Karl Pearson)。下圖標(biāo)繪出了1078對(duì)父子的身高狀況(單位是英寸),數(shù)據(jù)用小圈點(diǎn)表示,它們明顯地遵循一種線性趨勢,刻畫出向均值(等于45英寸)回歸的現(xiàn)象。在本圖中,我擬合了一條回歸直線,由實(shí)線表示,斜率估計(jì)值為0.514,由一般最小二乘估計(jì)得到(這一估計(jì)及以后其他估計(jì)的雙尾檢驗(yàn)都比常規(guī)的0.001水平顯著得多,因此這里就不報(bào)告了)。不管以誰的標(biāo)準(zhǔn)來看,這一數(shù)據(jù)的表現(xiàn)都很不錯(cuò)。不過,即使是在這一表現(xiàn)良好的數(shù)據(jù)里面,有些案例也比其他的更異常:我們很快就可看到圖中右上角及左下區(qū)的某些案例離其他圍繞在直線周邊的大多數(shù)案例更遠(yuǎn)。如果這些案例太過極端,我們就可以從下列標(biāo)準(zhǔn)的快速處理辦法中選擇一個(gè):從分析中剔除這些案例、重新編碼(如果存在編碼錯(cuò)誤的話),以及在分析中納入更多新變量。但如果沒有處理這些異常(或不那么異常)案例的合理可用的解決辦法,數(shù)據(jù)分析者該怎么辦呢?這正是穩(wěn)健及耐抗性回歸方法(robust and resistant regression method)派上用場的地方。
為了展示一下穩(wěn)健回歸,我對(duì)上述數(shù)據(jù)擬合了另外兩條直線(使用的是R軟件里的MASS數(shù)據(jù)包),虛線表示的是用MM-估計(jì)量(MM-estimator)估計(jì)得到的穩(wěn)健回歸線(斜率估計(jì)值=0.502),點(diǎn)線表示的是通過將分位殘差平方最小化(minimization of quantile squared residuals)的耐抗性回歸估計(jì)(估計(jì)過程中分位殘差最大的案例被忽略)得到的直線(斜率=0.442)?梢钥吹,使用MM-估計(jì)得到的穩(wěn)健回歸結(jié)果,其斜率只比OLS回歸的稍小。不過,耐抗性回歸得到的估計(jì)結(jié)果差別更大,所給結(jié)論表現(xiàn)出更為嚴(yán)重的向均值的回歸。由安德森撰寫的這本著作的焦點(diǎn)在于有效性(validity)的穩(wěn)。ǘ切 [efficiency]的穩(wěn)健),它將幫助社會(huì)科學(xué)家理解這些方法,并學(xué)到穩(wěn)健回歸的原理及應(yīng)用方法。
在社會(huì)科學(xué)中,現(xiàn)代穩(wěn)健及耐抗性回歸方法還不太為人所知。這些方法之所以被稱為現(xiàn)代方法是因?yàn)樗鼈兺ǔ儆诿芗陀?jì)算(computation intensive),這是當(dāng)前很多依賴今天的高速電腦的統(tǒng)計(jì)方法的一個(gè)特征。作為叢書的一部分,本書,尤其是其中關(guān)于回歸方法的那些章節(jié)在主要統(tǒng)計(jì)軟件如SAS和Stata已經(jīng)采用這些最新回歸方法的情況下是非常及時(shí)的。本書通過一套統(tǒng)一的符號(hào)系統(tǒng)介紹了不同來源的多種穩(wěn)健回歸方法以及它們彼此之間的聯(lián)系,這正是本書的杰出貢獻(xiàn)之一。為了給讀者們一些實(shí)際應(yīng)用上的幫助,本書也討論了不同方法的相對(duì)優(yōu)勢和不足。通過一本這樣的書,社會(huì)科學(xué)專業(yè)的學(xué)生及研究者最終會(huì)發(fā)現(xiàn)這些新的回歸方法和經(jīng)典回歸方法一樣平常和易于使用。
羅伯特·安德森(Robert Anderson),加拿大多倫多大學(xué)社會(huì)學(xué)和政治科學(xué)教授。他的研究興趣是應(yīng)用統(tǒng)計(jì)學(xué),政治社會(huì)學(xué)(尤其是態(tài)度及政治行為的社會(huì)基礎(chǔ)),社會(huì)分層,和工作社會(huì)學(xué)(the sociology of work)。曾在《美國社會(huì)學(xué)評(píng)論》 (American Sociology Review),《政治學(xué)刊》(The Journalof politics)和《社會(huì)學(xué)方法論》(Sociological Methodology)等期刊發(fā)表論文。
序
第1章 導(dǎo)論
第1節(jié) 何為穩(wěn)?
第2節(jié) 穩(wěn)健回歸的定義
第3節(jié) 一個(gè)真實(shí)的例子:20世紀(jì)70年代已婚夫婦的性生活頻率
第2章 重要背景
第1節(jié) 偏差與一致性
第2節(jié) 崩潰點(diǎn)/失效點(diǎn)
第3節(jié) 影響函數(shù)
第4節(jié) 相對(duì)效率
第5節(jié) 位置測度/位置量數(shù)
第6節(jié) 尺度測度
第7節(jié) M估計(jì)
第8節(jié) 各種估計(jì)的對(duì)比
第3章 穩(wěn)健性、抗擾性與最小二乘回歸
第1節(jié) 一般最小二乘回歸
第2節(jié) 異常案例對(duì)OLS估計(jì)及標(biāo)準(zhǔn)誤的影響
第4章 線性模型的文件回歸
第1節(jié) L估計(jì)量
第2節(jié) R估計(jì)量
第3節(jié) M估計(jì)量
第4節(jié) GM估計(jì)量
第5節(jié) S估計(jì)量
第6節(jié) 廣義S估計(jì)量
第7節(jié) MM估計(jì)量
第8節(jié) 各種估計(jì)量的比較
第5章 穩(wěn)健回歸的標(biāo)準(zhǔn)誤
第1節(jié) 穩(wěn)健回歸估計(jì)量的漸進(jìn)標(biāo)準(zhǔn)誤
第2節(jié) 自助標(biāo)準(zhǔn)誤
第6章 廣義線性模型中的權(quán)勢案例
第1節(jié) 廣義線性模型
第2節(jié) 穩(wěn)健廣義線性模型
第7章 結(jié)論
附錄
注釋
參考文獻(xiàn)
譯名對(duì)照表