本書是針對應(yīng)用統(tǒng)計(jì)專業(yè)碩士研究生數(shù)理統(tǒng)計(jì)課程而編寫的一本教材。數(shù)理統(tǒng)計(jì)作為應(yīng)用統(tǒng)計(jì)專業(yè)碩士教學(xué)的一門基礎(chǔ)課,在課程內(nèi)容選編上既要體現(xiàn)不同于本科課程內(nèi)容的“高層次”,又要體現(xiàn)出不同于統(tǒng)計(jì)學(xué)專業(yè)學(xué)術(shù)性碩士課程內(nèi)容的“應(yīng)用型”,盡量做到理論方法與應(yīng)用的有機(jī)融合。
統(tǒng)計(jì)學(xué)主要是用來研究如何有效地收集、處理和分析實(shí)際數(shù)據(jù)的一門學(xué)科,統(tǒng)計(jì)學(xué)的本質(zhì)在于挖掘原始數(shù)據(jù)中的潛在信息,通過有效且有針對性的統(tǒng)計(jì)分析與推斷,為解決實(shí)際問題提供具有參考價(jià)值的建議。在2011年以前,統(tǒng)計(jì)學(xué)科分別隸屬于兩個(gè)一級學(xué)科,即應(yīng)用經(jīng)濟(jì)學(xué)和數(shù)學(xué);2011年以后,國務(wù)院學(xué)位委員會(huì)通過了新的學(xué)位授予和人才培養(yǎng)學(xué)科目錄,統(tǒng)計(jì)學(xué)科上升為一級學(xué)科。這一方面說明了統(tǒng)計(jì)學(xué)這個(gè)學(xué)科本身的重要性,為未來統(tǒng)計(jì)學(xué)的快速發(fā)展提供了更加廣闊的舞臺和空間,同時(shí)這也對高等院校人才培養(yǎng)模式提出了新的要求。
經(jīng)國務(wù)院學(xué)位委員會(huì)批準(zhǔn),我國自2011年起開始招收培養(yǎng)應(yīng)用統(tǒng)計(jì)專業(yè)碩士,到目前已經(jīng)連續(xù)招收了六屆,且全國每年招生規(guī)模不斷擴(kuò)大。該專業(yè)學(xué)位設(shè)置的主要目的是為政府部門、大中型企業(yè)、咨詢和研究機(jī)構(gòu)培養(yǎng)高層次、應(yīng)用型統(tǒng)計(jì)專門人才。相對于學(xué)術(shù)性碩士的培養(yǎng)而言,應(yīng)用統(tǒng)計(jì)專業(yè)碩士培養(yǎng)的主要特點(diǎn)是“高層次、應(yīng)用型”。從課程設(shè)置體系來看,“應(yīng)用數(shù)理統(tǒng)計(jì)”課程是應(yīng)用統(tǒng)計(jì)專業(yè)碩士培養(yǎng)最為重要的基礎(chǔ)課和核心課,是后繼各類專業(yè)課的基礎(chǔ)。從學(xué)科定義上來看,數(shù)理統(tǒng)計(jì)主要是用來研究如何有效地收集、處理和分析數(shù)據(jù)的一門學(xué)科,通過對隨機(jī)現(xiàn)象有限次的觀測或試驗(yàn)得到的數(shù)據(jù)進(jìn)行歸納、分析,并據(jù)此對整體的數(shù)量規(guī)律性做出推斷或判斷。數(shù)理統(tǒng)計(jì)既強(qiáng)調(diào)統(tǒng)計(jì)理論數(shù)學(xué)闡述,如參數(shù)估計(jì)、非參數(shù)估計(jì)、相關(guān)與回歸分析等,同時(shí)又非常注重統(tǒng)計(jì)方法的實(shí)際應(yīng)用,數(shù)理統(tǒng)計(jì)對統(tǒng)計(jì)數(shù)據(jù)分析方法的影響是顯著的,在對應(yīng)用統(tǒng)計(jì)專業(yè)碩士的培養(yǎng)中發(fā)揮著重要作用。
鑒于應(yīng)用統(tǒng)計(jì)專業(yè)碩士推出的時(shí)間較短,國內(nèi)有針對性的數(shù)理統(tǒng)計(jì)教材很少,為了適應(yīng)應(yīng)用統(tǒng)計(jì)專業(yè)碩士培養(yǎng)快速發(fā)展的新形式,我們著手編寫了本書。作者認(rèn)為,“數(shù)理統(tǒng)計(jì)”作為應(yīng)用統(tǒng)計(jì)專業(yè)碩士教學(xué)的一門基礎(chǔ)課,在課程內(nèi)容選編上既要體現(xiàn)不同于本科課程內(nèi)容的“高層次”,又要體現(xiàn)出不同于傳統(tǒng)學(xué)術(shù)型碩士課程內(nèi)容的“應(yīng)用型”,盡量做到理論方法與應(yīng)用的有機(jī)融合?紤]到某些結(jié)論的證明過程過于煩瑣,初學(xué)者往往感到困惑,在編寫過程中我們強(qiáng)調(diào)方法的應(yīng)用,淡化理論證明,注重案例教學(xué)。
值得注意的是,計(jì)算機(jī)的誕生與迅猛發(fā)展,為數(shù)據(jù)處理提供了強(qiáng)有力的技術(shù)支持。統(tǒng)計(jì)的學(xué)習(xí)與使用離不開計(jì)算機(jī),離不開統(tǒng)計(jì)軟件。目前常用的統(tǒng)計(jì)軟件主要有SPSS、SAS、MATLAB、STATISTICA、R語言等。R 軟件作為一種免費(fèi)的開源統(tǒng)計(jì)軟件,已經(jīng)在統(tǒng)計(jì)學(xué)、運(yùn)籌學(xué)、生物信息學(xué)、經(jīng)濟(jì)學(xué)、工程學(xué)等諸多領(lǐng)域得到廣泛應(yīng)用。由于設(shè)計(jì)上的特點(diǎn),R語言并不局限某一類問題。配合不同的功能擴(kuò)展包,以及各種靈活使用的基本工具,R 語言能夠應(yīng)用的領(lǐng)域相當(dāng)廣泛。在本書中,我們將采用R語言作為主要的教學(xué)軟件。對于一些常用的結(jié)論,我們將通過R語言來實(shí)現(xiàn)。本書強(qiáng)調(diào)統(tǒng)計(jì)方法的R語言實(shí)現(xiàn)也是基于應(yīng)用的目的。
本書共分6章,其中第1章由姜玉英編寫,第2、3、6章由劉強(qiáng)編寫,第4、5章及附錄由王琳編寫,書中的大部分程序由王琳編寫,最后由劉強(qiáng)負(fù)責(zé)統(tǒng)一定稿。
本書內(nèi)容涵蓋了概率論預(yù)備知識、統(tǒng)計(jì)基礎(chǔ)知識、參數(shù)估計(jì)、假設(shè)檢驗(yàn)、區(qū)間估計(jì)及回歸分析。為了方便讀者學(xué)習(xí)和實(shí)際應(yīng)用,本書在附錄中介紹了R語言的使用、非參數(shù)密度估計(jì)及非參數(shù)回歸等內(nèi)容,以開闊讀者的應(yīng)用視野。全部講授完本書大約需要48學(xué)時(shí),如果將R軟件的學(xué)習(xí)與應(yīng)用放到課后,則32學(xué)時(shí)左右即可完成本書內(nèi)容的講授。
本書的初稿在首都經(jīng)濟(jì)貿(mào)易大學(xué)應(yīng)用統(tǒng)計(jì)專業(yè)碩士班講授過多年,雖然經(jīng)過多次修改,總感不足,趁此出版之際,我們對講義又進(jìn)行了大幅的整理與修訂,希望本書的出版能為應(yīng)用統(tǒng)計(jì)專業(yè)碩士的教學(xué)貢獻(xiàn)一份綿薄之力。
在本書的撰寫過程中,北京工業(yè)大學(xué)薛留根教授、程維虎教授,首都經(jīng)濟(jì)貿(mào)易大學(xué)統(tǒng)計(jì)學(xué)院紀(jì)宏教授、張寶學(xué)教授、馬立平教授都給予了極大的支持和熱心的幫助。電子工業(yè)出版社高等教育分社的譚海平社長和王二華編輯也為本書的出版付出了很大努力,在此一并表示感謝。本書的撰寫也得到了北京市青年拔尖人才培育計(jì)劃項(xiàng)目(CIT&TCD201404133)和首都經(jīng)濟(jì)貿(mào)易大學(xué)專業(yè)學(xué)位碩士教育系列教材建設(shè)項(xiàng)目的資助。
由于作者水平有限,盡管盡了很大努力,但書中仍不免存在錯(cuò)謬之處,懇請國內(nèi)同行及讀者不吝指正。電子郵箱為:cuebliuqiang@163.com。
作 者
2016年11月
劉強(qiáng)教授,博士生導(dǎo)師,現(xiàn)任首都經(jīng)濟(jì)貿(mào)易大學(xué)統(tǒng)計(jì)學(xué)院副院長,兼任全國工業(yè)統(tǒng)計(jì)教學(xué)研究會(huì)常務(wù)理事兼常務(wù)副秘書長,北京應(yīng)用統(tǒng)計(jì)學(xué)會(huì)常務(wù)理事,中國商業(yè)經(jīng)濟(jì)學(xué)會(huì)經(jīng)濟(jì)數(shù)學(xué)研究分會(huì)常務(wù)理事,北京大數(shù)據(jù)協(xié)會(huì)理事等。主要從事應(yīng)用數(shù)理統(tǒng)計(jì)、經(jīng)濟(jì)數(shù)據(jù)分析、非參數(shù)統(tǒng)計(jì)以及復(fù)雜數(shù)據(jù)分析等方面的教學(xué)、科研工作。王琳,首都經(jīng)濟(jì)貿(mào)易大學(xué)統(tǒng)計(jì)學(xué)院講師,美國匹茲堡大學(xué)生物統(tǒng)計(jì)系訪問學(xué)者。主要從事生物信息學(xué)和計(jì)算生物學(xué)方面的研究,主持包括國家自然科學(xué)基金在內(nèi)課題多項(xiàng),發(fā)表SCI學(xué)術(shù)論文近十篇。
目 錄
第1章 預(yù)備知識 1
1.1 隨機(jī)事件及其概率 2
1.1.1 樣本空間與隨機(jī)事件 2
1.1.2 事件間的關(guān)系及運(yùn)算 2
1.1.3 概率的定義及性質(zhì) 3
1.1.4 條件概率與事件的獨(dú)立性 4
1.2 隨機(jī)變量及其分布 5
1.2.1 隨機(jī)變量及其分布 5
1.2.2 離散型隨機(jī)變量及其分布率 6
1.2.3 連續(xù)型隨機(jī)變量及其概率密度 7
1.2.4 隨機(jī)變量函數(shù)的分布 9
1.3 多維隨機(jī)變量及其性質(zhì) 10
1.3.1 多維隨機(jī)變量及其分布 10
1.3.2 邊緣分布與條件分布 11
1.3.3 隨機(jī)變量的獨(dú)立性 12
1.3.4 隨機(jī)向量函數(shù)的分布 12
1.3.5 隨機(jī)向量的變換及其分布 13
1.4 隨機(jī)變量的數(shù)字特征 13
1.4.1 數(shù)學(xué)期望與方差 13
1.4.2 矩、協(xié)方差陣及相關(guān)系數(shù) 16
1.4.3 條件數(shù)學(xué)期望 17
1.5 特征函數(shù)及其性質(zhì) 18
1.6 大數(shù)定律與中心極限定理 19
1.6.1 隨機(jī)變量序列的收斂性 19
1.6.2 大數(shù)定律 20
1.6.3 中心極限定理 21
習(xí)題1 22
第2章 統(tǒng)計(jì)基礎(chǔ) 24
2.1 一些基本概念 24
2.1.1 總體與樣本 24
2.1.2 放回與不放回抽樣 26
2.1.3 參數(shù)與非參數(shù)分布族 26
2.1.4 統(tǒng)計(jì)量與抽樣分布 27
2.2 三大抽樣分布 29
2.2.1 c2分布 29
2.2.2 t分布 32
2.2.3 F分布 34
2.2.4 兩個(gè)重要的結(jié)論 36
2.3 常見分布族 37
2.3.1 伽馬分布族 37
2.3.2 Fisher Z分布族 38
2.3.3 貝塔分布族 39
2.3.4 韋布爾分布族 41
2.3.5 多項(xiàng)分布族 41
2.3.6 指數(shù)型分布族 42
2.4 常用統(tǒng)計(jì)量 43
2.4.1 經(jīng)驗(yàn)分布函數(shù) 44
2.4.2 次序統(tǒng)計(jì)量 45
2.4.3 樣本p分位數(shù) 47
2.5 充分統(tǒng)計(jì)量 48
2.5.1 充分統(tǒng)計(jì)量 48
2.5.2 因子分解定理 50
2.5.3 指數(shù)型分布族的充分統(tǒng)計(jì)量 52
2.6 完備統(tǒng)計(jì)量 52
2.6.1 分布族的完備性 52
2.6.2 完備統(tǒng)計(jì)量 53
2.6.3 指數(shù)型分布族的完備統(tǒng)計(jì)量 54
2.7 常用統(tǒng)計(jì)圖形 55
2.7.1 直方圖 55
2.7.2 莖葉圖 59
2.7.3 箱線圖 60
2.7.4 散點(diǎn)圖 62
2.7.5 折線圖 65
習(xí)題2 66
第3章 點(diǎn)估計(jì) 69
3.1 點(diǎn)估計(jì)與優(yōu)良性 69
3.1.1 點(diǎn)估計(jì)的概念 69
3.1.2 無偏性 69
3.1.3 有效性 70
3.1.4 均方誤差準(zhǔn)則 71
3.1.5 相合性 71
3.1.6 漸近正態(tài)性 73
3.2 矩估計(jì) 74
3.3 極大似然估計(jì) 75
3.3.1 極大似然估計(jì)的原理 76
3.3.2 極大似然估計(jì)的性質(zhì) 80
3.4 一致最小方差無偏估計(jì) 80
3.4.1 一致最小方差無偏估計(jì)的概念 80
3.4.2 零無偏估計(jì)法 82
3.4.3 充分完備統(tǒng)計(jì)量法 83
3.5 Cramer-Rao不等式 83
3.5.1 C-R正則分布族與Fisher信息 83
3.5.2 統(tǒng)計(jì)量的Fisher信息 86
3.5.3 信息不等式與有效估計(jì) 86
3.6 U統(tǒng)計(jì)量 89
3.7 同變估計(jì) 90
3.7.1 同變性的引入 90
3.7.2 最優(yōu)同變估計(jì) 91
3.7.3 Pitman估計(jì) 92
習(xí)題3 93
第4章 假設(shè)檢驗(yàn) 95
4.1 基本概念 95
4.1.1 假設(shè)檢驗(yàn)問題 95
4.1.2 拒絕域與檢驗(yàn)統(tǒng)計(jì)量 96
4.1.3 兩類錯(cuò)誤和功效函數(shù) 96
4.1.4 Neyman-Pearson原則 97
4.1.5 檢驗(yàn)函數(shù)與充分統(tǒng)計(jì)量 98
4.2 Neyman-Pearson基本引理 99
4.2.1 最大功效檢驗(yàn) 99
4.2.2 一致最大功效檢驗(yàn) 101
4.3 似然比檢驗(yàn) 102
4.4 正態(tài)總體的參數(shù)檢驗(yàn) 104
4.4.1 均值的檢驗(yàn) 104
4.4.2 方差的檢驗(yàn) 109
4.5 非參數(shù)假設(shè)檢驗(yàn) 112
4.5.1 皮爾遜?2擬合檢驗(yàn) 113
4.5.2 柯爾莫哥洛夫-斯米爾諾夫
檢驗(yàn)法 116
4.5.3 符號檢驗(yàn)法 118
4.5.4 Wilcoxon符號秩檢驗(yàn) 121
4.5.5 Wilcoxon-Mann-Whitney秩和
檢驗(yàn) 124
4.5.6 游程檢驗(yàn) 126
習(xí)題4 127
第5章 區(qū)間估計(jì) 130
5.1 區(qū)間估計(jì)的基本概念 130
5.2 置信區(qū)間(置信域)的構(gòu)造 133
5.2.1 樞軸量法 133
5.2.2 假設(shè)檢驗(yàn)法 136
5.2.3 近似分布法 138
5.3 一致最精確置信區(qū)間(置信限) 138
習(xí)題5 140
第6章 回歸分析 142
6.1 引言 142
6.2 線性回歸模型 144
6.2.1 最小二乘估計(jì) 145
6.2.2 最小二乘估計(jì)的性質(zhì) 148
6.3 模型的評價(jià)與檢驗(yàn) 150
6.3.1 模型的評價(jià) 150
6.3.2 模型的檢驗(yàn) 152
6.4 響應(yīng)變量的預(yù)測 156
6.5 廣義最小二乘估計(jì) 157
6.6 回歸診斷 158
6.6.1 殘差分析 159
6.6.2 影響分析 163
6.6.3 多重共線性分析 166
6.7 有偏估計(jì) 169
6.7.1 嶺估計(jì) 169
6.7.2 主成分回歸 172
6.8 Box-Cox變換 175
習(xí)題6 178
附錄A R語言簡介 181
附錄B 非參數(shù)密度估計(jì) 198
附錄C 非參數(shù)回歸 208
附錄D 常用的統(tǒng)計(jì)表 216
參考文獻(xiàn) 239