金融科技大數(shù)據(jù)風(fēng)控方法介紹: 解釋性、隱私保護(hù)與數(shù)據(jù)安全
本書是在大數(shù)據(jù)框架下,全面介紹金融科技在處理真實(shí)場景金融問題時(shí)需要掌握的最重要的幾類機(jī)器學(xué)習(xí)方法,并將重點(diǎn)放在實(shí)施過程中需要用到的特征提取、可解釋性、隱私保護(hù)與數(shù)據(jù)安全共享等相關(guān)內(nèi)容的討論上。
本書內(nèi)容分三部分:第一部分由1~6章組成,主要講常規(guī)情況下,機(jī)器學(xué)習(xí)在金融場景特別是大數(shù)據(jù)風(fēng)控中的建模應(yīng)用;第二部分由第7章和第8章組成,主要講在數(shù)據(jù)隱私保護(hù)和安全要求下,機(jī)器學(xué)習(xí)如何進(jìn)行大數(shù)據(jù)風(fēng)控建模;第三部分由9~16章組成,主要講如何基于吉布斯抽樣算法建立特征提取的理論
和標(biāo)準(zhǔn)框架及其在包含投資和融資等7個(gè)不同金融場景中的應(yīng)用。
本書具有五個(gè)特點(diǎn):一是面向應(yīng)用需求,介紹機(jī)器學(xué)習(xí)在金融場景特別是大數(shù)據(jù)風(fēng)控中的建模應(yīng)用;二是緊扣應(yīng)用,聚焦智能投顧和大數(shù)據(jù)信用評價(jià)兩大領(lǐng)域;三是針對算法,重點(diǎn)講邏輯回歸和集成學(xué)習(xí)建模;四是針對數(shù)據(jù)安全和隱私保護(hù)問題,建立密文機(jī)器學(xué)習(xí)模型,實(shí)現(xiàn)數(shù)據(jù)共享;五是針對特征工程,基于吉布斯抽樣算法,建立支持非線性特征提取的理論和標(biāo)準(zhǔn)框架。
更多科學(xué)出版社服務(wù),請掃碼獲取。
目錄
序一
序二
前言
緒論 1
第一部分 機(jī)器學(xué)習(xí)及金融應(yīng)用
第1章 機(jī)器學(xué)習(xí)與金融科技應(yīng)用介紹 11
1.1 人工智能介紹.11
1.2 機(jī)器學(xué)習(xí)簡介.13
1.2.1 什么是機(jī)器學(xué)習(xí) 13
1.2.2 機(jī)器學(xué)習(xí)建模簡介 15
1.2.3 本節(jié)小結(jié) 17
1.3 機(jī)器學(xué)習(xí)大數(shù)據(jù)智能風(fēng)控應(yīng)用介紹 17
1.3.1 人工智能在金融機(jī)構(gòu)風(fēng)險(xiǎn)管理中的應(yīng)用 18
1.3.2 深度學(xué)習(xí)算法將會被廣泛采用.19
1.3.3 大數(shù)據(jù)框架下的多種形態(tài)數(shù)據(jù)將會被廣泛應(yīng)用 21
1.3.4 基于網(wǎng)絡(luò)的知識圖譜(全息畫像)形成落地解決方案 21
1.3.5 聯(lián)邦學(xué)習(xí)方法將會大規(guī)模落地使用 22
1.3.6 人工智能方法在大數(shù)據(jù)風(fēng)控面臨的挑戰(zhàn) 22
1.4 本章小結(jié) 27
練習(xí)題 28
第2章 邏輯回歸 29
2.1 邏輯回歸原理 29
2.1.1 邏輯回歸簡介 29
2.1.2 分類原理 30
2.1.3 示例 33
2.2 基于最優(yōu)化方法的最佳回歸系數(shù)確定 33
2.2.1 最優(yōu)化問題 33
2.2.2 梯度下降法求解 34
2.2.3 模型的擬合優(yōu)度評估 35
2.3 模型評估 36
2.4 多分類問題 48
2.4.1 多次邏輯回歸 48
2.4.2 對邏輯回歸模型進(jìn)行擴(kuò)展 49
2.5 邏輯回歸評分卡 49
2.6 場景應(yīng)用 51
2.6.1 數(shù)據(jù)描述 52
2.6.2 模型建立與評估 52
2.6.3 評分卡生成 54
2.7 本章小結(jié) 58
練習(xí)題 59
第3章 決策樹 60
3.1 決策樹模型的原理 60
3.2 特征選擇 61
3.2.1 ID3 算法 62
3.2.2 C4.5 算法 63
3.2.3 CART 算法 64
3.2.4 不同決策樹算法的比較 65
3.3 示例 65
3.4 過擬合與剪枝 70
3.4.1 預(yù)剪枝 70
3.4.2 后剪枝 71
3.5 場景應(yīng)用 73
3.5.1 數(shù)據(jù)描述 73
3.5.2 模型建立與評估 73
3.6 本章小結(jié) 73
練習(xí)題 74
第4章 集成學(xué)習(xí)算法 75
4.1 隨機(jī)森林 76
4.1.1 隨機(jī)森林算法簡介 76
4.1.2 場景應(yīng)用 77
4.2 GBDT算法 78
4.2.1 GBDT算法簡介 78
4.2.2 GBDT算法流程 79
4.2.3 GBDT示例 82
4.2.4 Shrinkage策略 .88
4.2.5 場景應(yīng)用 88
4.3 XGBoost算法 89
4.3.1 XGBoost算法簡介 89
4.3.2 XGBoost分類算法 90
4.3.3 XGBoost回歸算法 100
4.3.4 XGBoost示例 100
4.3.5 場景應(yīng)用 132
4.4 本章小結(jié) 133
練習(xí)題 133
第5章 機(jī)器學(xué)習(xí)模型的可解釋性方法 135
5.1 可解釋性理論 135
5.1.1 可解釋性的重要性 135
5.1.2 可解釋性的分類 136
5.1.3 解釋的性質(zhì) 136
5.2 可解釋性方法 136
5.3 SHAP解釋法 137
5.4 LIME解釋法143
5.4.1 LIME算法特點(diǎn) 144
5.4.2 LIME實(shí)現(xiàn)步驟 144
5.4.3 LIME算法原理 144
5.5 SHAP與LIME解釋法的對比 145
5.6 本章小結(jié) 147
練習(xí)題 147
第6章 大數(shù)據(jù)風(fēng)控機(jī)器學(xué)習(xí)建模 148
6.1 標(biāo)簽設(shè)計(jì) 149
6.1.1 Vintage賬齡分析 149
6.1.2 滾動率分析 151
6.1.3 好/壞/不確定定義 152
6.2 數(shù)據(jù)清洗 152
6.2.1 缺失值處理 152
6.2.2 同值化處理 153
6.2.3 標(biāo)準(zhǔn)化處理 153
6.3 特征工程概述 154
6.3.1 特征變量分箱 154
6.3.2 變量WOE轉(zhuǎn)換 .155
6.3.3 IV值預(yù)測能力分析 155
6.3.4 相關(guān)性和關(guān)聯(lián)性分析 156
6.3.5 VIF方差膨脹因子分析 158
6.4 模型訓(xùn)練與評估 159
6.4.1 模型建立 159
6.4.2 參數(shù)優(yōu)化 159
6.5 模型驗(yàn)證 159
6.5.1 模型穩(wěn)定性 159
6.5.2 模型區(qū)分能力 160
6.6 實(shí)證研究 162
6.6.1 數(shù)據(jù)來源與處理 162
6.6.2 特征工程 167
6.6.3 模型訓(xùn)練與評估 182
6.6.4 模型預(yù)測結(jié)果的解釋 186
6.6.5 可解釋性結(jié)果與樣本真實(shí)分布的對比 199
6.7 本章小結(jié) 201
練習(xí)題 201
第二部分 隱私保護(hù)和數(shù)據(jù)安全背景下的機(jī)器學(xué)習(xí)及金融應(yīng)用
第7章 同態(tài)加密機(jī)器學(xué)習(xí)建模 205
7.1 同態(tài)加密簡介 205
7.1.1 幾種主流全同態(tài)加密方案對比 206
7.1.2 CKKS加密方案應(yīng)用 207目
7.2 密文邏輯回歸模型構(gòu)建 208
7.2.1 雙方介紹 208
7.2.2 密文邏輯回歸的建模過程 208
7.2.3 密文邏輯回歸的預(yù)測過程 210
7.3 密文評分卡模型構(gòu)建 211
7.3.1 研究目的 212
7.3.2 數(shù)據(jù)要求 212
7.3.3 必備文件和源代碼 213
7.4 密文評分卡建模流程 214
7.4.1 雙方介紹 214
7.4.2 模擬數(shù)據(jù) 215
7.4.3 密文評分卡自動化建模流程 215
7.5 本章小結(jié) 217
附錄I 代碼流程操作詳解 217
練習(xí)題 227
第8章 聯(lián)邦學(xué)習(xí)建模 228
8.1 聯(lián)邦學(xué)習(xí)適用的場景 228
8.2 聯(lián)邦學(xué)習(xí)的分類 228
8.3 聯(lián)邦學(xué)習(xí)框架下的機(jī)器學(xué)習(xí)算法 230
8.3.1 縱向安全聯(lián)邦邏輯回歸 230
8.3.2 Secureboost 232
8.4 聯(lián)邦學(xué)習(xí)實(shí)證 234
8.4.1 Secureboost示例 .234
8.4.2 場景應(yīng)用 249
8.5 本章小結(jié) 253
練習(xí)題 254
第三部分 吉布斯抽樣算法的特征提取及場景應(yīng)用
第9章 吉布斯抽樣方法和特征提取框架介紹 257
9.1 吉布斯抽樣方法可以解決什么問題 257
9.2 邏輯回歸模型框架下的關(guān)聯(lián)特征的提取方法 259
9.3 實(shí)現(xiàn)吉布斯抽樣特征提取的算法框架 261
9.4 集成學(xué)習(xí)模型框架下的關(guān)聯(lián)特征提取步驟 263
9.5 本章小結(jié) 263
附錄 II 支持關(guān)聯(lián)特征提取的比值比指標(biāo)介紹 264
練習(xí)題 265
第10章 篩選刻畫FOF關(guān)聯(lián)風(fēng)險(xiǎn)特征指標(biāo) 266
10.1 基金自身關(guān)聯(lián)風(fēng)險(xiǎn)因素介紹 267
10.2 影響基金的其他相關(guān)因素 268
10.3 篩選FOF關(guān)聯(lián)特征的隨機(jī)搜索算法框架建立 269
10.3.1 金融產(chǎn)品(基金)業(yè)績相關(guān)特征提取的基本思路 269
10.3.2 非結(jié)構(gòu)性數(shù)據(jù)特征提取推斷算法框架 270
10.3.3 核心特征的提取與篩選 275
10.4 基于ROC曲線的AUC測試的特征表現(xiàn) 277
10.5 本章小結(jié) 283
練習(xí)題 283
第11章 篩選影響大宗商品價(jià)格變化的特征指標(biāo) 285
11.1 大宗商品價(jià)格因素相關(guān)背景介紹 286
11.2 期貨銅特征因子分析 288
11.2.1 大宗商品期貨銅價(jià)格數(shù)據(jù)介紹 288
11.2.2 預(yù)測大宗商品期貨銅價(jià)格變化趨勢的關(guān)聯(lián)特征因子 289
11.2.3 預(yù)測刻畫影響銅價(jià)格變化的特征因子 290
11.3 本章小結(jié) 293
附錄 III 支持特征提取的初始關(guān)聯(lián)特征因子表 293
練習(xí)題 297
第12章 篩選影響螺紋鋼期貨價(jià)格變化的關(guān)聯(lián)特征 298
12.1 螺紋鋼背景綜述 298
12.1.1 背景 298
12.1.2 影響螺紋鋼價(jià)格因素研究現(xiàn)狀簡述 299
12.2 影響螺紋鋼期貨價(jià)格的因素分析 300
12.2.1 螺紋鋼期貨價(jià)格影響因素分析 300
12.2.2 構(gòu)建初始特征池 301
12.2.3 影響螺紋鋼期貨價(jià)格的風(fēng)險(xiǎn)特征提取與分析方法 304
12.2.4 刻畫螺紋鋼期貨價(jià)格變化實(shí)證分析 306
12.3 本章小結(jié) 312
練習(xí)題 313
第13章 篩選影響公司財(cái)務(wù)欺詐行為的關(guān)聯(lián)特征 315
13.1 公司財(cái)務(wù)欺詐行為背景介紹 315
13.2 公司財(cái)務(wù)欺詐行為的特征指標(biāo) 318
13.2.1 上市公司財(cái)務(wù)欺詐風(fēng)險(xiǎn)特征介紹 318
13.2.2 特征提取方法簡介 319
13.3 建立全面刻畫公司財(cái)務(wù)欺詐的預(yù)警體系 320
13.3.1 案例分析 321
13.3.2 公司監(jiān)事關(guān)聯(lián)性 322
13.3.3 建立有效預(yù)測財(cái)務(wù)欺詐框架 323
13.4 本章小結(jié) 324
練習(xí)題 324
第14章 針對上市公司財(cái)務(wù)欺詐行為的評估.326
14.1 基于舞弊三角理論的咖啡館財(cái)務(wù)質(zhì)量評估 327
14.1.1 財(cái)務(wù)舞弊與財(cái)務(wù)欺詐 327
14.1.2 舞弊三角理論 327
14.2 常見舞弊類型討論 329
14.3 咖啡館財(cái)務(wù)質(zhì)量評估方法 330
14.3.1 基本思想陳述 330
14.3.2 核心指標(biāo) 331
14.4 針對上市公司財(cái)務(wù)舞弊案例分析 332
14.4.1 壓力與動機(jī) 332
14.4.2 機(jī)會與漏洞 333
14.4.3 態(tài)度與借口 334
14.4.4 結(jié)論和針對欺詐行為的特征刻畫討論 335
14.5 本章小結(jié) 336
練習(xí)題 337
第15章 篩選影響個(gè)人信用貸款的關(guān)聯(lián)特征 338
15.1 背景 338
15.2 數(shù)據(jù)來源 339
15.3 算法選。篨GBoost與吉布斯算法的異同表現(xiàn) 339
15.4 篩選的數(shù)據(jù)結(jié)果與討論 340
15.5 本章小結(jié) 345
練習(xí)題 345
第16章 建立刻畫鄉(xiāng)村農(nóng)戶貧困狀態(tài)特征因子的篩選框架 346
16.1 背景 346
16.2 特征指標(biāo)篩選與分析流程框架建立思路 349
16.2.1 基礎(chǔ)指標(biāo)池的構(gòu)建 349
16.2.2 建立特征指標(biāo)篩選框架的基本思路 350
16.2.3 針對特征指標(biāo)的建模分析與甄別能力的有效性測試 350
16.3 支持特征提取的數(shù)據(jù)源樣本描述 351
16.3.1 提取刻畫鄉(xiāng)村農(nóng)戶貧困狀態(tài)特征的框架和分析 352
16.3.2 刻畫農(nóng)戶貧困狀態(tài)的特征指標(biāo)的篩選結(jié)果 .356
16.3.3 刻畫農(nóng)戶貧困狀態(tài)特征指標(biāo)甄別的有效性測試 357
16.4 結(jié)論的簡要解讀和討論建議 359
16.5 本章小結(jié) 361
附錄IV 描述農(nóng)戶貧困狀態(tài)特征指標(biāo)的基本定義和解釋 362
練習(xí)題 363
參考文獻(xiàn) 365
附錄 A 基于Python語言對幾種典型算法的基本功能代碼實(shí)現(xiàn) 376
A.1 線性回歸模型簡介 376
A.2 線性分類模型簡介 382
A.3 決策樹模型簡介 393
A.4 集成模型簡介 404
A.4.1 引導(dǎo)聚集 404
A.4.2 梯度提升 408
A.4.3 LightGBM的超參數(shù)調(diào)整 409
A.4.4 集成模型用于分類 411
A.4.5 總結(jié) 412
A.5 神經(jīng)網(wǎng)絡(luò)模型簡介 412
A.5.1 數(shù)據(jù)讀取 413
A.5.2 多分類邏輯回歸 416
A.5.3 分類模型的衡量 417
A.5.4 擬合不足與過擬合 419
A.6 深度學(xué)習(xí)介紹 433
A.6.1 近期人工智能熱潮的關(guān)鍵推動力 433
A.6.2 金融服務(wù): 工具賦能到知識賦能 435
A.6.3 基于深度學(xué)習(xí)的知識服務(wù) 435