時間序列分析實戰(zhàn):基于機器學(xué)習(xí)和統(tǒng)計學(xué)
定 價:139.8 元
- 作者:[美] 艾琳·尼爾森(Aileen Nielsen)
- 出版時間:2022/12/1
- ISBN:9787115605443
- 出 版 社:人民郵電出版社
- 中圖法分類:O211.61
- 頁碼:376
- 紙張:
- 版次:01
- 開本:16開
時間序列在現(xiàn)代生活中無處不在,它也是數(shù)據(jù)分析的重要對象。本書介紹時間序列分析的實用技巧,展示如何結(jié)合機器學(xué)習(xí)方法和傳統(tǒng)的統(tǒng)計方法來分析各類時間序列數(shù)據(jù),并提供Python示例和R示例。本書共有17章,首先概覽時間序列分析的歷史,然后介紹數(shù)據(jù)的獲取、清洗、模擬和存儲,接著關(guān)注可用于時間序列分析的建模技術(shù),最后探討時間序列分析在幾個常見領(lǐng)域中的應(yīng)用。
本書適合與時間序列打交道的數(shù)據(jù)分析師、數(shù)據(jù)工程師、數(shù)據(jù)科學(xué)家及其他相關(guān)從業(yè)人員閱讀。
天氣、股票、心跳都會產(chǎn)生時間序列數(shù)據(jù),物聯(lián)網(wǎng)、數(shù)字化醫(yī)療和智慧城市的興起更是產(chǎn)生了大量的時間序列數(shù)據(jù)。隨著數(shù)據(jù)的規(guī)模快速增長,應(yīng)用機器學(xué)習(xí)和統(tǒng)計方法進行時間序列分析的做法越來越普遍,也越來越重要。
本書從實戰(zhàn)角度介紹時間序列分析中的創(chuàng)新技術(shù)和實際用例,幫助你結(jié)合使用傳統(tǒng)的統(tǒng)計方法和先進的機器學(xué)習(xí)技術(shù)來解決時間序列分析中的常見問題。由于Python和R都是時間序列分析常用的語言,因此本書兼顧這兩種語言并對時間序列進行系統(tǒng)的闡釋,可以讓數(shù)據(jù)分析師、數(shù)據(jù)工程師和其他與數(shù)據(jù)打交道的讀者快速上手。
* 發(fā)現(xiàn)并整理時間序列數(shù)據(jù)
* 針對時間序列進行探索性數(shù)據(jù)分析
* 模擬時間序列
* 存儲時間序列
* 為時間序列生成并選擇特征
* 測量誤差
* 使用機器學(xué)習(xí)和深度學(xué)習(xí)分析時間序列
* 評估模型的精度和性能
【作者簡介】
艾琳·尼爾森(Aileen Nielsen)是軟件工程師和數(shù)據(jù)分析師。她畢業(yè)于耶魯大學(xué)和普林斯頓大學(xué),從事過多個領(lǐng)域的時間序列研究工作,包括醫(yī)療行業(yè)、物理學(xué)研究和金融行業(yè)等。她目前專注于研發(fā)用于預(yù)測的神經(jīng)網(wǎng)絡(luò)。
【譯者簡介】
王祎,擁有6年軟件開發(fā)、數(shù)據(jù)與人工智能領(lǐng)域方面的工作經(jīng)驗,現(xiàn)任ThoughtWorks機器學(xué)習(xí)工程師。為金融、汽車、藥企等客戶提供過專業(yè)服務(wù),在利用時間序列進行預(yù)測、數(shù)據(jù)分析、數(shù)據(jù)可視化等方面擁有豐富的經(jīng)驗。
馮英睿,在數(shù)據(jù)與人工智能領(lǐng)域有14年工作經(jīng)驗,現(xiàn)任ThoughtWorks數(shù)據(jù)科學(xué)家。為銀行、電信、汽車和制造業(yè)等客戶提供過專業(yè)服務(wù),在利用時間序列進行預(yù)測、故障診斷、異常檢測和預(yù)測性維護等方面擁有豐富的經(jīng)驗。
前言 xi
第 1章 時間序列:概述和簡史 1
1.1 時間序列在歷史上的各種應(yīng)用 1
1.1.1 醫(yī)學(xué)中的時間序列問題 2
1.1.2 氣象預(yù)測 5
1.1.3 經(jīng)濟增長預(yù)測 5
1.1.4 天文學(xué) 7
1.2 時間序列分析的興起 7
1.3 統(tǒng)計時間序列分析的起源 8
1.4 時間序列分析在機器學(xué)習(xí)領(lǐng)域的起源 9
1.5 更多資源 10
第 2章 時間序列的發(fā)現(xiàn)與整理 11
2.1 時間序列數(shù)據(jù)何處尋 11
2.1.1 準備好的數(shù)據(jù)集 12
2.1.2 “找到的時間序列” 16
2.2 將表集合改造成時間序列數(shù)據(jù)集合 17
2.2.1 示例:組裝時間序列數(shù)據(jù)集合 18
2.2.2 構(gòu)造“找到的時間序列” 23
2.3 時間戳問題 25
2.3.1 誰的時間戳 25
2.3.2 推測時間戳以理解數(shù)據(jù) 26
2.3.3 什么是有意義的時間尺度 27
2.4 清理數(shù)據(jù) 28
2.4.1 處理數(shù)據(jù)缺失 28
2.4.2 上采樣和下采樣 38
2.4.3 數(shù)據(jù)平滑 40
2.4.4 季節(jié)性數(shù)據(jù) 44
2.4.5 時區(qū) 47
2.4.6 預(yù)防前瞻 50
2.5 更多資源 51
第3 章 針對時間序列的探索性數(shù)據(jù)分析 53
3.1 常用方法 53
3.1.1 折線圖 54
3.1.2 直方圖 56
3.1.3 散點圖 57
3.2 探索時間序列數(shù)據(jù)的方法 59
3.2.1 理解平穩(wěn)性 60
3.2.2 應(yīng)用窗口函數(shù) 64
3.2.3 理解和識別自相關(guān)性 67
3.2.4 偽相關(guān)性 76
3.3 一些有用的可視化方式 78
3.3.1 一維可視化 78
3.3.2 二維可視化 79
3.3.3 三維可視化 86
3.4 更多資源 89
第4 章 模擬時間序列 90
4.1 模擬時間序列有何特別之處 91
4.2 代碼模擬 91
4.2.1 自己動手 92
4.2.2 構(gòu)建一個自行運轉(zhuǎn)的模擬世界 97
4.2.3 物理模擬 102
4.3 寫在最后 107
4.3.1 統(tǒng)計模擬 108
4.3.2 深度學(xué)習(xí)模擬 108
4.4 更多資源 108
第5 章 存儲時間序列 109
5.1 定義需求 110
5.2 數(shù)據(jù)庫解決方案 113
5.2.1 SQL與NoSQL 113
5.2.2 流行的時間序列數(shù)據(jù)庫 116
5.3 文件解決方案 119
5.3.1 NumPy 119
5.3.2 Pandas 120
5.3.3 R 語言中的標(biāo)準格式 120
5.3.4 Xarray 120
5.4 更多資源 121
第6 章 時間序列的統(tǒng)計模型 123
6.1 為什么不使用線性回歸 123
6.2 時間序列的統(tǒng)計方法 125
6.2.1 自回歸模型 125
6.2.2 移動平均模型 136
6.2.3 差分自回歸移動平均模型 140
6.2.4 向量自回歸模型 149
6.2.5 多樣的統(tǒng)計模型 152
6.3 時間序列統(tǒng)計模型的優(yōu)缺點 153
6.4 更多資源 154
第7 章 時間序列的狀態(tài)空間模型 155
7.1 狀態(tài)空間模型的優(yōu)缺點 156
7.2 卡爾曼濾波器 157
7.2.1 概述 157
7.2.2 為卡爾曼濾波器編碼 159
7.3 隱馬爾可夫模型 163
7.3.1 模型的工作原理 163
7.3.2 如何擬合模型 165
7.3.3 通過編碼實現(xiàn)擬合 167
7.4 貝葉斯結(jié)構(gòu)時間序列 171
7.5 更多資源 176
第8 章 時間序列的特征生成與選擇 178
8.1 入門示例 179
8.2 生成特征時需要考慮什么 180
8.2.1 時間序列的性質(zhì) 180
8.2.2 領(lǐng)域知識 181
8.2.3 外部考慮因素 181
8.3 何處尋找特征靈感 181
8.3.1 開源時間序列特征生成庫 182
8.3.2 特定領(lǐng)域的特征示例 185
8.4 生成特征后如何進行選擇 188
8.5 結(jié)語 190
8.6 更多資源 191
第9 章 針對時間序列的機器學(xué)習(xí) 193
9.1 時間序列分類 194
9.1.1 生成并選擇特征 194
9.1.2 決策樹方法 197
9.2 聚類 203
9.2.1 由數(shù)據(jù)生成特征 204
9.2.2 具有時間感知能力的距離度量指標(biāo) 210
9.2.3 聚類代碼 213
9.3 更多資源 215
第 10 章 針對時間序列的深度學(xué)習(xí) 217
10.1 深度學(xué)習(xí)概念 219
10.2 通過編程實現(xiàn)神經(jīng)網(wǎng)絡(luò) 220
10.3 構(gòu)建訓(xùn)練流程 224
10.3.1 檢查數(shù)據(jù)集 224
10.3.2 訓(xùn)練流程的步驟 227
10.4 前饋網(wǎng)絡(luò) 240
10.4.1 一個簡單示例 241
10.4.2 運用注意力機制使前饋網(wǎng)絡(luò)更具時間意識 243
10.5 卷積神經(jīng)網(wǎng)絡(luò) 245
10.5.1 一個簡單的卷積模型 246
10.5.2 其他可用的卷積模型 248
10.6 循環(huán)神經(jīng)網(wǎng)絡(luò) 250
10.6.1 繼續(xù)研究用電量示例 252
10.6.2 創(chuàng)新:自編碼器 253
10.7 組合架構(gòu) 254
10.8 結(jié)語 258
10.9 更多資源 258
第 11 章 測量誤差 260
11.1 基礎(chǔ)知識:如何檢驗預(yù)測結(jié)果 261
11.2 預(yù)測結(jié)果何時才算足夠好 263
11.3 通過模擬估計模型中的不確定性 265
11.4 預(yù)測多步 268
11.4.1 直接擬合感興趣的范圍 268
11.4.2 針對較遠時間步的遞歸方法 268
11.4.3 對時間序列應(yīng)用多任務(wù)學(xué)習(xí) 268
11.5 模型驗證陷阱 269
11.6 更多資源 269
第 12 章 擬合及使用時間序列模型時的性能考量 271
12.1 使用為一般用例構(gòu)建的工具 272
12.1.1 用于橫截面數(shù)據(jù)的模型不在樣本間“共享”數(shù)據(jù) 272
12.1.2 沒有預(yù)先計算的模型造成數(shù)據(jù)測量與預(yù)測間的非必要延遲 273
12.2 數(shù)據(jù)存儲格式的優(yōu)缺點 274
12.2.1 以二進制格式存儲數(shù)據(jù) 274
12.2.2 以能夠在數(shù)據(jù)上“滑動”的方式預(yù)處理 275
12.3 為適應(yīng)性能考量而修改分析 275
12.3.1 使用所有數(shù)據(jù)不一定更好 275
12.3.2 復(fù)雜的模型并不總是表現(xiàn)得更好 276
12.3.3 簡要介紹可用的高性能工具 276
12.4 更多資源 277
第 13 章 醫(yī)療保健應(yīng)用 278
13.1 流感預(yù)測 278
13.1.1 案例研究:發(fā)生在大都市的流感疫情 278
13.1.2 流感預(yù)測領(lǐng)域的最新技術(shù) 291
13.2 血糖水平預(yù)測 292
13.2.1 探索和清洗數(shù)據(jù) 293
13.2.2 生成特征 297
13.2.3 擬合模型 303
13.3 更多資源 307
第 14 章 金融應(yīng)用 308
14.1 獲取并探索金融數(shù)據(jù) 308
14.2 金融數(shù)據(jù)預(yù)處理與深度學(xué)習(xí) 314
14.2.1 由原始數(shù)據(jù)生成新指標(biāo) 314
14.2.2 轉(zhuǎn)換數(shù)據(jù)并避免前瞻 315
14.2.3 為神經(jīng)網(wǎng)絡(luò)格式化數(shù)據(jù) 317
14.3 構(gòu)建并訓(xùn)練循環(huán)神經(jīng)網(wǎng)絡(luò) 319
14.4 更多資源 325
第 15 章 政務(wù)應(yīng)用 326
15.1 獲取政府?dāng)?shù)據(jù) 327
15.2 探索時間序列大數(shù)據(jù) 328
15.2.1 在遍歷數(shù)據(jù)時進行上采樣并聚合 331
15.2.2 對數(shù)據(jù)排序 331
15.3 時間序列數(shù)據(jù)的在線統(tǒng)計分析 335
15.3.1 剩余問題 343
15.3.2 后續(xù)改進 344
15.4 更多資源 344
第 16 章 時間序列工具包 345
16.1 規(guī);A(yù)測 345
16.1.1 谷歌內(nèi)部的工業(yè)級預(yù)測框架 346
16.1.2 Facebook的Prophet開源工具包 347
16.2 異常檢測 351
16.3 其他時間序列工具包 353
16.4 更多資源 354
第 17 章 關(guān)于預(yù)測的預(yù)測 355
17.1 預(yù)測即服務(wù) 355
17.2 深度學(xué)習(xí)提高了概率 356
17.3 重要性正由統(tǒng)計方法向機器學(xué)習(xí)方法轉(zhuǎn)移 356
17.4 更深入地結(jié)合統(tǒng)計方法和機器學(xué)習(xí)方法 357
17.5 涉及日常生活的更多預(yù)測 357