Python金融大數(shù)據(jù)風(fēng)控建模實(shí)戰(zhàn):基于機(jī)器學(xué)習(xí)
定 價:119 元
- 作者:王青天 孔越
- 出版時間:2020/6/1
- ISBN:9787111655794
- 出 版 社:機(jī)械工業(yè)出版社
- 中圖法分類:F830.41-39
- 頁碼:0
- 紙張:
- 版次:
- 開本:16開
本書的定位是一本Python金融大數(shù)據(jù)風(fēng)控建模的入門級讀物。全書包括4篇:背景篇旨在由淺入深地引領(lǐng)讀者走進(jìn)金融科技領(lǐng)域,了解智能風(fēng)控,系統(tǒng)、全面地認(rèn)識評分卡;基礎(chǔ)篇圍繞評分卡構(gòu)建的全流程,向讀者一一講述每個環(huán)節(jié)的理論知識,隨之進(jìn)行代碼實(shí)踐,幫助讀者獲得從0至1構(gòu)建評分卡模型的工程能力;進(jìn)階篇旨在從建模中可能遇到問題出發(fā),提供一些問題解決或模型提升的思路,使建立的評分卡具有更好的業(yè)務(wù)適應(yīng)及預(yù)測能力;實(shí)戰(zhàn)篇結(jié)合真實(shí)信貸場景的數(shù)據(jù)集,帶領(lǐng)讀者完成從數(shù)據(jù)分析至評分卡生成的各個流程,旨在讓讀者體驗(yàn)真實(shí)場景,具備評分卡實(shí)戰(zhàn)能力,亦可作為讀者實(shí)際工作中構(gòu)建評分卡的參考。本書適合有一定Python語言基礎(chǔ)的金融風(fēng)控相關(guān)技術(shù)人員閱讀,也適合想要了解人工智能如何在金融場景應(yīng)用的開發(fā)及業(yè)務(wù)人員。另外,也適合專業(yè)培訓(xùn)機(jī)構(gòu)的學(xué)員和相關(guān)專業(yè)的學(xué)生。
前言
第1篇 智能風(fēng)控背景
第1章 金融科技介紹2
1.1 金融科技的前世今生2
1.2 金融科技正深刻地改變和塑造著金融業(yè)態(tài)4
1.3 新興科技不斷強(qiáng)化金融科技的應(yīng)用能力5
1.4 金融風(fēng)險控制面臨著前所未有的挑戰(zhàn)7
1.5 智能風(fēng)控和評分卡8
1.6 評分卡模型的開發(fā)流程11
第2章 機(jī)器學(xué)習(xí)介紹17
2.1 機(jī)器學(xué)習(xí)的概念17
2.2 機(jī)器學(xué)習(xí)的分類17
2.2.1 有監(jiān)督學(xué)習(xí)18
2.2.2 無監(jiān)督學(xué)習(xí)18
2.2.3 強(qiáng)化學(xué)習(xí)19
2.3 機(jī)器學(xué)習(xí)與人工智能的關(guān)系20
2.4 機(jī)器學(xué)習(xí)與數(shù)學(xué)的關(guān)系20
2.5 機(jī)器學(xué)習(xí)與深度學(xué)習(xí)22
第3章 評分卡模型介紹25
3.1 申請?jiān)u分卡25
3.1.1 數(shù)據(jù)獲取26
3.1.2 好壞樣本定義26
3.1.3 觀察期與表現(xiàn)期確定29
3.1.4 樣本分層32
3.1.5 數(shù)據(jù)清洗與預(yù)處理33
3.1.6 特征工程33
3.1.7 模型訓(xùn)練與優(yōu)化35
3.2 行為評分卡36
3.2.1 數(shù)據(jù)獲取37
3.2.2 時間窗口37
3.2.3 特征工程38
3.3 催收評分卡40
3.3.1 催收評分卡分類40
3.3.2 催收策略41
3.4 反欺詐模型42
3.4.1 欺詐風(fēng)險與信用風(fēng)險比較42
3.4.2 欺詐模型好壞樣本定義43
3.4.3 欺詐主體分析44
3.4.4 反欺詐方法介紹44
第2篇 評分卡理論與實(shí)戰(zhàn)基礎(chǔ)
第4章 數(shù)據(jù)清洗與預(yù)處理48
4.1 數(shù)據(jù)集成49
4.2 數(shù)據(jù)清洗50
4.3 探索性數(shù)據(jù)分析52
4.4 Python代碼實(shí)踐54
4.4.1 數(shù)據(jù)集成54
4.4.2 數(shù)據(jù)清洗58
4.4.3 探索性數(shù)據(jù)分析61
第5章 變量編碼方法66
5.1 無監(jiān)督編碼66
5.1.1 One-hot編碼66
5.1.2 Dummy variable編碼68
5.1.3 Label編碼69
5.2 有監(jiān)督編碼70
5.2.1 WOE編碼70
5.2.2 WOE編碼與One-hot編碼比較73
5.3 Python代碼實(shí)踐75
5.3.1 One-hot編碼76
5.3.2 Dummy variable編碼80
5.3.3 Label編碼82
5.3.4 WOE編碼85
第6章 變量分箱方法89
6.1 變量分箱流程91
6.2 最優(yōu)Chi-merge卡方分箱方法92
6.3 Best-KS分箱方法94
6.4 最優(yōu)IV分箱方法95
6.5 基于樹的最優(yōu)分箱方法95
6.6 Python代碼實(shí)踐98
6.6.1 最優(yōu)Chi-merge分箱98
6.6.2 最優(yōu)IV分箱106
6.6.3 基于樹的分箱107
第7章 變量選擇109
7.1 過濾法變量選擇109
7.2 包裝法變量選擇112
7.3 嵌入法變量選擇113
7.4 Python代碼實(shí)踐115
7.4.1 過濾法變量選擇115
7.4.2 包裝法變量選擇118
7.4.3 嵌入法變量選擇120
第8章 Logistic回歸模型123
8.1 Logistic回歸模型原理123
8.2 過擬合與欠擬合128
8.3 Python代碼實(shí)踐130
第9章 模型的評估指標(biāo)136
9.1 正負(fù)樣本的選擇137
9.2 標(biāo)準(zhǔn)評估指標(biāo)139
9.3 概率密度評估指標(biāo)141
9.4 概率分布評估指標(biāo)144
9.5 Python代碼實(shí)踐153
第10章 評分卡分?jǐn)?shù)轉(zhuǎn)化157
10.1 由概率到分?jǐn)?shù)的轉(zhuǎn)換157
10.2 變量的分值計(jì)算159
10.3 評分卡性能評估161
10.4 Python代碼實(shí)踐163
第11章 模型在線監(jiān)控169
11.1 穩(wěn)定性監(jiān)控169
11.2 單調(diào)性監(jiān)控172
11.3 性能監(jiān)控指標(biāo)173
11.4 Python代碼實(shí)踐174
第3篇 評分卡理論與實(shí)戰(zhàn)進(jìn)階
第12章 樣本不均衡處理180
12.1 數(shù)據(jù)層下采樣樣本不均衡的處理方法181
12.1.1 隨機(jī)下采樣方法181
12.1.2 樣本鄰域選擇的下采樣方法182
12.1.3 樣本鄰域清理的下采樣方法184
12.1.4 Bagging集成的下采樣方法185
12.1.5 Boosting集成的下采樣方法187
12.2 數(shù)據(jù)層上采樣樣本不均衡的處理方法188
12.2.1 隨機(jī)上采樣方法188
12.2.2 SMOTE樣本生成方法189
12.2.3 Borderline-SMOTE樣本生成方法190
12.3 算法層樣本不均衡的處理方法190
12.4 模型評估層樣本不均衡的處理方法191
12.5 Python代碼實(shí)踐191
12.5.1 數(shù)據(jù)層下采樣樣本不均衡處理代碼實(shí)現(xiàn)192
12.5.2 數(shù)據(jù)層上采樣樣本不均衡處理代碼實(shí)現(xiàn)201
第13章 特征工程進(jìn)階206
13.1 數(shù)據(jù)層特征工程206
13.2 算法層特征工程211
13.2.1 基于樹模型的特征生成211
13.2.2 FM特征交叉215
13.3 Python代碼實(shí)踐219
13.3.1 數(shù)據(jù)層特征工程代碼實(shí)現(xiàn)219
13.3.2 算法層特征工程代碼實(shí)現(xiàn)222
第14章 決策樹模型229
14.1 決策樹模型的原理229
14.2 決策樹學(xué)習(xí)229
14.3 決策樹與過擬合234
14.4 Python代碼實(shí)踐236
第15章 神經(jīng)網(wǎng)絡(luò)模型241
15.1 神經(jīng)元模型241
15.2 神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)242
15.3 神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)策略247
15.4 Python代碼實(shí)踐253
第16章 支持向量機(jī)模型257
16.1 感知器模型257
16.1.1 感知器模型的原理257
16.1.2 感知器與支持向量機(jī)模型260
16.2 線性可分支持向量機(jī)261
16.3 線性支持向量機(jī)267
16.4 非線性支持向量機(jī)272
16.5 感知器相關(guān)模型比較278
16.6 Python代碼實(shí)踐280
16.6.1 線性支持向量機(jī)模型代碼實(shí)現(xiàn)280
16.6.2 非線性支持向量機(jī)模型代碼實(shí)現(xiàn)282
第17章 集成學(xué)習(xí)286
17.1 Bagging與Boosting對比286
17.2 Random Forest模型原理288
17.3 Adaboost模型原理289
17.4 GBDT模型原理292
17.5 Xgboost模型原理297
17.6 Python代碼實(shí)踐304
17.6.1 Random Forest模型304
17.6.2 Adaboost模型308
17.6.3 GBDT模型310
17.6.4 Xgboost模型313
第18章 模型融合317
18.1 Blending方法原理317
18.2 Stacking方法原理320
18.3 Python代碼實(shí)踐322
18.3.1 Blending模型融合代碼實(shí)現(xiàn)322
18.3.2 Stacking模型融合代碼實(shí)現(xiàn)325
第4篇 Lending Club數(shù)據(jù)集實(shí)戰(zhàn)
第19章 完整的模型開發(fā)實(shí)現(xiàn)330
19.1 數(shù)據(jù)源介紹330
19.2 數(shù)據(jù)的獲取與預(yù)處理331
19.2.1 數(shù)據(jù)準(zhǔn)備331
19.2.2 好壞樣本定義334
19.2.3 數(shù)據(jù)清洗與預(yù)處理335
19.3 特征工程341
19.3.1 簡單的特征工程341
19.3.2 變量分箱與編碼342
19.3.3 變量選擇348
19.4 模型構(gòu)建與評估351
19.4.1 模型構(gòu)建與優(yōu)化351
19.4.2 模型評估352
19.5 評分卡生成353
附錄A 主要符號表357
附錄B 開發(fā)環(huán)境簡介358
參考文獻(xiàn)362