《缺失數(shù)據(jù)的模型檢驗(yàn)及其應(yīng)用》主要研究缺失數(shù)據(jù)模型的檢驗(yàn)問題. 《缺失數(shù)據(jù)的模型檢驗(yàn)及其應(yīng)用》共分為8 章. 第1 章主要介紹數(shù)據(jù)的不同缺失機(jī)制, 包括協(xié)變量缺失和因變量缺失, 以及在不同缺失機(jī)制下常見的統(tǒng)計(jì)分析方法. 第2 章介紹一些常見的檢驗(yàn)方法, 主要包括蒙特卡羅檢驗(yàn)和得分類型的檢驗(yàn). 在蒙特卡羅檢驗(yàn)這部分, 著重介紹參數(shù)和非參數(shù)蒙特卡羅檢驗(yàn)方法. 第3 章介紹在數(shù)據(jù)不存在缺失的情況下, 幾種常見模型的檢驗(yàn)方法及其性質(zhì). 第4 章是關(guān)于在因變量缺失時, 部分線性模型中非線性部分是否符合某類參數(shù)結(jié)構(gòu)的擬合優(yōu)度檢驗(yàn)問題. 第5 章討論協(xié)變量隨機(jī)缺失時, 廣義線性模型本身的擬合優(yōu)度檢驗(yàn)問題. 第6 章對于變系數(shù)模型, 在響應(yīng)變量缺失的情況下, 研究變系數(shù)部分是否具有一定參數(shù)結(jié)構(gòu)的檢驗(yàn). 第7 章研究的是協(xié)變量缺失時候的統(tǒng)計(jì)推斷問題. 第8 章的主要內(nèi)容是因變量隨機(jī)缺失的情況下, 變系數(shù)模型本身的擬合優(yōu)度檢驗(yàn)問題. 第4 章到第8 章的檢驗(yàn)統(tǒng)計(jì)量主要采用蒙特卡羅檢驗(yàn)和得分類型的檢驗(yàn).
更多科學(xué)出版社服務(wù),請掃碼獲取。
缺失數(shù)據(jù)越來越多的存在于生物統(tǒng)計(jì)等應(yīng)用領(lǐng)域,如果對缺失數(shù)據(jù)用錯誤的模型擬合,做出的統(tǒng)計(jì)推斷可能是無效的。所以,關(guān)于缺失數(shù)據(jù)模型的擬合優(yōu)度問題,無論對于理論研究還是實(shí)際應(yīng)用研究都具有重要的意義。目前關(guān)于缺失數(shù)據(jù)模型檢驗(yàn)的中文書很少,《缺失數(shù)據(jù)的模型檢驗(yàn)及其應(yīng)用》主要研究了此問題,對于理論和實(shí)際應(yīng)用工作者都具有借鑒意義。
中國人民大學(xué)統(tǒng)計(jì)學(xué)院副教授,醫(yī)學(xué)與生物統(tǒng)計(jì)教研室主任。先后訪問過香港大學(xué),香港浸會大學(xué)和美國北卡羅萊納大學(xué)教堂山分校。近年來一直從事模型的擬和優(yōu)度檢驗(yàn),隨機(jī)缺失數(shù)據(jù),兩階段抽樣數(shù)據(jù)以及縱向數(shù)據(jù)分析的研究。今年來承擔(dān)了“新世紀(jì)優(yōu)秀人才計(jì)劃”,“北京市科技新星計(jì)劃”,國家自然科學(xué)面上基金,國家自然科學(xué)青年基金和教育部人文社科基金等多項(xiàng)科研課題。在Biometrka, Biostatistics, Statistica Sinica , Scandinavian Journal of Statistics , Journal of Multivariate Analysis等國際重要期刊發(fā)表和接受SCI論文24篇。
目錄
前言
符號表
第1章 缺失數(shù)據(jù) 1
1.1 協(xié)變量缺失機(jī)制 1
1.2 協(xié)變量缺失的處理方法 4
1.2.1 完整個體分析 4
1.2.2 基于插補(bǔ)數(shù)據(jù)的方法 4
1.2.3 基于似然的方法 6
1.3 響應(yīng)變量缺失規(guī)制 8
1.4 響應(yīng)變量缺失的處理方法 9
第2章 常用的一些檢驗(yàn)方法 11
2.1 蒙特卡羅檢驗(yàn) 11
2.1.1 參數(shù)蒙特卡羅檢驗(yàn) 11
2.1.2 非參數(shù)蒙特卡羅檢驗(yàn) 12
2.2 得分類型的檢驗(yàn) 15
第3章 完全數(shù)據(jù)模型的假設(shè)檢驗(yàn) 19
3.1 廣義線性模型的研究 19
3.1.1 統(tǒng)計(jì)量的漸近性質(zhì) 20
3.1.2 蒙特卡羅近似 21
3.2 部分線性模型的研究 22
3.3 變系數(shù)模型的關(guān)于模型的檢驗(yàn) 22
3.3.1 檢驗(yàn)統(tǒng)計(jì)量及其極限性質(zhì) 25
3.3.2 蒙特卡羅近似 27
3.4 變系數(shù)模型的關(guān)于回歸系數(shù)的檢驗(yàn) 28
3.4.1 檢驗(yàn)步驟 30
3.4.2 檢驗(yàn)統(tǒng)計(jì)量的近似表現(xiàn) 31
第4章 因變量缺失時部分線性模型擬合優(yōu)度檢驗(yàn) 34
4.1 引言 34
4.2 完全數(shù)據(jù)的構(gòu)造以及模型的估計(jì) 35
4.3 檢驗(yàn)統(tǒng)計(jì)量及其漸近性質(zhì) 36
4.4 蒙特卡羅逼近 38
4.5 數(shù)值分析 40
4.5.1 模擬分析 40
4.5.2 實(shí)際數(shù)據(jù)分析 43
4.6 定理的證明 44
第5章 協(xié)變量隨機(jī)缺失時廣義線性模型的擬合優(yōu)度檢驗(yàn) 53
5.1 檢驗(yàn)步驟 54
5.1.1 檢驗(yàn)統(tǒng)計(jì)量的構(gòu)造 54
5.1.2 檢驗(yàn)統(tǒng)計(jì)量的極限性質(zhì) 56
5.2 數(shù)值分析 57
5.2.1 模擬研究 57
5.2.2 實(shí)例分析 61
5.3 定理的證明 61
第6章 響應(yīng)變量缺失時變系數(shù)模型的非參數(shù)檢驗(yàn) 71
6.1 引言 71
6.2 檢驗(yàn)統(tǒng)計(jì)量的構(gòu)造 72
6.3 統(tǒng)計(jì)量的漸近性質(zhì) 74
6.4 蒙特卡羅近似 75
6.5 數(shù)據(jù)分析 77
6.5.1 模擬研究 77
6.5.2 應(yīng)用于一個環(huán)境數(shù)據(jù) 81
6.6 定理的證明 82
第7章 協(xié)變量隨機(jī)缺失時部分線性模型的擬合優(yōu)度檢驗(yàn) 92
7.1 引言 92
7.2 檢驗(yàn)步驟 93
7.2.1 檢驗(yàn)統(tǒng)計(jì)量的構(gòu)建 93
7.2.2 檢驗(yàn)統(tǒng)計(jì)量的漸近性質(zhì) 95
7.3 數(shù)據(jù)分析 97
7.3.1 模擬研究 97
7.3.2 實(shí)際數(shù)據(jù)分析 100
7.4 定理的證明 101
第8章 響應(yīng)變量隨機(jī)缺失時變系數(shù)模型的擬合優(yōu)度檢驗(yàn) 108
8.1 引言 108
8.2 檢驗(yàn)統(tǒng)計(jì)量的構(gòu)造 109
8.3 漸進(jìn)性質(zhì) 111
8.4 蒙特卡羅近似 112
8.5 數(shù)據(jù)分析 113
8.5.1 模擬研究 113
8.5.2 應(yīng)用于一個環(huán)境數(shù)據(jù)集 116
8.6 定理的證明 116
參考文獻(xiàn) 122
索引 127
第1 章缺失數(shù)據(jù)
1.1 協(xié)變量缺失機(jī)制
在醫(yī)學(xué)和流行病學(xué)等應(yīng)用領(lǐng)域,協(xié)變量缺失處處存在.數(shù)據(jù)缺失機(jī)制對于數(shù)據(jù)的統(tǒng)計(jì)推斷是非常重要的,不同的缺失機(jī)制會導(dǎo)致不同的似然函數(shù),進(jìn)而得出不同的統(tǒng)計(jì)推斷結(jié)果.缺失機(jī)制的概念是由Rubin(1976)提出的,主要分為三大類:隨機(jī)缺失MAR(missingatrandom)、完全隨機(jī)缺失MCAR(missingcompletelyatrandom)和非隨機(jī)缺失NMAR(notmissingatrandom),其中非隨機(jī)缺失也稱為不可忽略缺失(nonignorablemissingness).
用Y表示響應(yīng)變量,(X,Z)表示協(xié)變量,δ表示協(xié)變量X是否缺失,等于1表示觀測到,等于0表示缺失.以下給出協(xié)變量X三種不同缺失的定義.
(1)完全隨機(jī)缺失,也就是協(xié)變量X是否缺失與協(xié)變量Z和響應(yīng)變量Y沒有任何關(guān)系.用公式表示為P(δ=1Y,X,Z)=P(δ=1).
(2) 隨機(jī)缺失,也就是協(xié)變量|X缺失只和協(xié)變量Z和響應(yīng)變量Y有關(guān),與X本身沒有關(guān)系.用公式表示為P(δ=1|Y,X,Z)=P(δ=1|Y,Z).
(3)非隨機(jī)缺失,在這種缺失機(jī)制下,協(xié)變量X缺失可能與Z和Y有關(guān),也可能與X本身有關(guān).
下面給出一個模擬說明上述所提到的三種不同的協(xié)變量缺失機(jī)制.假定數(shù)據(jù)來自如下模型
Y=β0+β1X+ε,(1.1.1)
設(shè)定(β0,β1)=(1,1),X和ε獨(dú)立且都來自標(biāo)準(zhǔn)正態(tài)分布.如下三種不同缺失函數(shù)分別表示三種不同的缺失機(jī)制.
(1)P(δ=1)=0.6;
(2)P(δY)=0.30,如果Y.1.5,否則=0.95;
(3)P(δ||Y,X)=0.40,如果|| X+Y.1.5,否則=0.90.
這三種缺失機(jī)制分別是完全隨機(jī)缺失、只依賴響應(yīng)變量Y的缺失,以及既依賴于X也依賴Y的缺失.在這三種不同的缺失機(jī)制下,數(shù)據(jù)缺失的概率都等于或者約等于0.6.
我們隨機(jī)產(chǎn)生200組數(shù)據(jù),圖1.1.1(a),(b),(c)和(d)分別表示數(shù)據(jù)完全觀測到的情況,第一、第二以及第三種缺失機(jī)制下得到的數(shù)據(jù).從圖1.1.1中可以看出,圖1.1.1(b)是圖1.1.1(a)中的數(shù)據(jù)隨機(jī)缺失40%的數(shù)據(jù);圖1.1.1(c)可以明顯看出在|Y | >1.5時,缺失的概率明顯小于|Y | .1.5的情況;圖1.1.1(c)也可以看到在X+Y.1.5的缺失概率明顯