本書先從背景出發(fā),闡述黑盒模型存在的問題以及不解決黑盒問題模型可能帶來的后果,引出可解釋機器學習的重要性;隨后,我們從可解釋機器學習的研究方向,分為內(nèi)在可解釋模型算法和模型事后解析方法兩部分進行介紹,闡述不同模型的原理、應用及其可解釋性。z后通過三個不同的應用場景,介紹在銀行實戰(zhàn)中的數(shù)據(jù)挖掘方法,由問題、處理方法出發(fā),結合可解釋機器學習模型結果,證明模型的有效性和實用性,期望讀者通過對本書的閱讀,可以更快更好的解決實際業(yè)務問題,而非紙上談兵。業(yè)務場景均為業(yè)內(nèi)的典型案例,希望能夠?qū)ψx者有所啟發(fā)。同時,本書中還會有大量的公式與代碼,保證內(nèi)容的豐富與嚴謹,經(jīng)得起推敲,使得讀者知其然且知其所以然。
讀者對象:
金融機構、銀行、金融科技公司等數(shù)據(jù)技術相關崗位從業(yè)者。
人工智能、機器學習、數(shù)據(jù)挖掘相關技術崗位從業(yè)者。
人工智能、機器學習、大數(shù)據(jù)相關專業(yè)的院校研究生、本科生。
1、涵蓋了可解釋機器學習前沿的研究成果及行業(yè)成功應用經(jīng)驗。
2、從算法層面系統(tǒng)地梳理了可解釋機器學習技術的研究體系,脈絡清晰,層層遞進。
3、書中除詳盡闡述了各種經(jīng)典算法的原理外,還輔以數(shù)據(jù)、代碼實例演示算法實現(xiàn)的步驟,是一本理論與實踐相結合的實用指南。
4、提供了可解釋機器學習應用于銀行業(yè)務場景的實際案例,讓讀者身臨其境,充分理解可解釋機器學習是如何解決現(xiàn)實問題的。
5、涵蓋了金融科技領域的技術應用成果,對金融機構數(shù)字化建設有重要的參考價值。
為什么要寫這本書
2018年,索信達正式成立金融AI實驗室,開始研究和探索人工智能技術在金融行業(yè)中的應用。在與學術界領先學者合作和交流的過程中,我們開始接觸可解釋機器學習。通過數(shù)年的研究和實踐,我們發(fā)現(xiàn)可解釋機器學習恰好能夠彌補當下人工智能技術在金融業(yè)應用中的不足。現(xiàn)今,深度學習、集成學習等復雜機器學習算法大行其道,銀行里的營銷模型、風控模型幾乎全都順應了這個大的技術潮流,雖然模型的精準性已有了較大的提升,但是業(yè)務應用風險卻如影相隨,模型的黑盒屬性導致模型結果在業(yè)務應用上不具備清晰的邏輯和可解釋性。模型是否存在偏見,何時適用,該如何使用?很多問題都是模糊不清的。
對于金融等風險控制嚴格的領域,如果要應用黑盒模型,我們必須慎之又慎。索信達作為一家深耕金融領域數(shù)據(jù)解決方案的提供商,一直都在致力于追求對行業(yè)問題保持前瞻性的洞察力,這也是金融人工智能實驗室成立的初衷和意義所在?山忉寵C器學習在學術界尚屬新興事物,在國內(nèi)金融領域的應用更是寥寥無幾,知者甚少,但是可解釋機器學習對于金融業(yè)規(guī)范、合理、安全地使用人工智能技術的價值和意義卻是非凡的。2021年初,中國人民銀行正式出臺《人工智能算法金融應用評價規(guī)范》,這說明國家監(jiān)管部門和行業(yè)專家已經(jīng)意識到人工智能算法在金融領域中的應用存在亂象和潛在風險,并對此提出了嚴格的評價規(guī)范。在這個評價標準下,對于未來人工智能技術在金融領域的應用,可解釋機器學習無疑會是大勢所趨。索信達正好站在了引領潮流的當口,有過可解釋機器學習在銀行業(yè)的成功實踐。例如,在客戶流失預警問題的場景中,我們創(chuàng)造性地運用可解釋機器學習,真正做到了對單個客戶流失原因的歸因,大大提升了潛在流失客戶的挽留率。在促活營銷場景中,利用可解釋機器學習輸出的客戶名單的營銷轉(zhuǎn)化率提升了3倍。取得這些令人興奮的成果之后,我們想要讓整個金融業(yè)意識到可解釋機器學習的價值的使命感油然而生,于是便有了寫作這本書的動機,希望將這幾年在可解釋機器學習方面的研究,以及將其應用在銀行業(yè)的實踐經(jīng)驗分享給大家,更希望人工智能技術能夠持續(xù)助力金融業(yè)健康繁榮發(fā)展。作為一家金融科技公司,索信達也希望能夠為行業(yè)的發(fā)展貢獻自己的一份力量!
讀者對象
金融機構、銀行、金融科技公司等數(shù)據(jù)技術相關崗位從業(yè)者。
人工智能、機器學習、數(shù)據(jù)挖掘相關技術崗位從業(yè)者。
人工智能、機器學習、大數(shù)據(jù)相關專業(yè)的院校研究生、本科生。
如何閱讀本書
本書共分為三大部分,具體內(nèi)容結構如下。
部分為背景(第1~2章)。由于可解釋機器學習在業(yè)內(nèi)屬于新興知識,因此本部分用兩章的篇幅,以各種生動的例子,闡述可解釋機器學習的背景和重要性,幫助讀者建立對可解釋機器學習的初步印象。
第二部分為理論(第3~4章)。本部分主要按照可解釋機器學習已有的分類,從內(nèi)在可解釋和事后可解釋兩個方面來介紹本領域的常見模型,其中既包括傳統(tǒng)的統(tǒng)計學模型,又包括學術界新提出來的一些模型。本部分內(nèi)容可以讓讀者對目前已存在的各種可解釋機器學習算法有一個詳細的了解,并且能夠讓讀者參照示例代碼自己動手實踐。
第三部分為實例(第5~7章)。本部分主要以案例的形式,重點介紹可解釋機器學習在銀行的營銷、風控和推薦系統(tǒng)等業(yè)務領域的應用,以幫助讀者進一步理解可解釋機器學習如何解決銀行業(yè)實際遇到的問題。
勘誤和支持
由于作者的水平有限,寫作的時間比較緊張,書中難免會出現(xiàn)一些錯誤或者不準確的地方,如有發(fā)現(xiàn),懇請大家批評指正。如果大家有建議或意見,歡迎發(fā)送郵件至郵箱shaop@datamargin.com,很期待聽到大家的真摯反饋。
致謝
首先要特別感謝香港大學張愛軍博士團隊,他讓我們看到了可解釋機器學習的價值,他們?yōu)槲覀冎该髁搜芯康姆较蚝吐肪,對標國際領先的研究團隊,讓我們對可解釋機器學習領域的研究能夠快速步入正軌。在理論研究階段,張愛軍博士給予了我們極其耐心、細致的指導,讓我們的技術水平有了日新月異的突破和提升。
感謝索信達金融AI實驗室參與寫作的小伙伴們:蘇思達、楊健穎、何悅、蘇鈺、孫兆悅、董弋嵩。感謝他們堅持不懈、永不放棄的精神,以及克服巨大挑戰(zhàn)的勇氣。我們要做的研究和寫作對于每個人來說都是全新的,雖然初沒有經(jīng)驗,也沒有太多寫作材料,困難重重,但是大家還是克服一切困難堅持了下來。這種堅持不懈和全心投入是我們珍貴的收獲。
感謝索信達華南服務二部李冉冉、何超、李震、鄒美靈團隊的大力幫助,感謝他們?yōu)槲覀兲峁┝朔浅ky得的銀行實際業(yè)務的真實場景,并且協(xié)助我們順利完成技術實施。沒有他們的幫助,就沒有這些寶貴的案例材料。
后要感謝索信達市場部的蔣順利老師和機械工業(yè)出版社華章公司的編輯楊繡國老師在本書出版過程中提供的大力支持。
謹以此書,獻給金融機構、金融科技公司的人工智能技術從業(yè)者,以及數(shù)據(jù)挖掘、數(shù)據(jù)分析等相關技術愛好者。
邵平
索信達控股AI實驗室總監(jiān)
邵平
資深數(shù)據(jù)科學家,索信達控股金融AI實驗室總監(jiān)。在大數(shù)據(jù)、人工智能領域有十多年技術研發(fā)和行業(yè)應用經(jīng)驗。技術方向涉及可解釋機器學習、深度學習、時間序列預測、智能推薦、自然語言處理等,F(xiàn)主要致力于可解釋機器學習、推薦系統(tǒng)、銀行智能營銷和智能風控等領域的技術研究和項目實踐。
楊健穎
云南財經(jīng)大學統(tǒng)計學碩士,高級數(shù)據(jù)挖掘工程師,一個對數(shù)據(jù)科學有堅定信念的追求者,目前重點研究機器學習模型的可解釋性。
蘇思達
美國天普大學統(tǒng)計學碩士,機器學習算法專家,長期為銀行提供大數(shù)據(jù)與人工智能解決方案和技術服務。主要研究方向為可解釋機器學習與人工智能,曾撰寫《可解釋機器學習研究報告》和多篇可解釋機器學習相關文章。
前言
部分 背景
第1章 引言2
1.1 可解釋機器學習研究背景2
1.1.1 機器學習面臨的挑戰(zhàn)2
1.1.2 黑盒模型存在的問題4
1.2 模型可解釋性的重要性8
1.3 國內(nèi)外的模型監(jiān)管政策10
1.4 本章小結11
第2章 可解釋機器學習12
2.1 模型的可解釋性12
2.1.1 可解釋性的定義13
2.1.2 可解釋性的分類14
2.1.3 可解釋機器學習的研究方向16
2.2 可解釋性的作用18
2.2.1 產(chǎn)生信任19
2.2.2 提供因果關系依據(jù)19
2.2.3 幫助模型診斷20
2.2.4 安全使用模型22
2.2.5 避免發(fā)生偏見與歧視22
2.3 可解釋性的實現(xiàn)23
2.3.1 建模前的可解釋性實現(xiàn)23
2.3.2 建模中的可解釋性實現(xiàn)26
2.3.3 建模后的可解釋性實現(xiàn)28
2.4 本章小結29
第二部分 理論
第3章 內(nèi)在可解釋機器學習模型32
3.1 傳統(tǒng)統(tǒng)計模型33
3.1.1 線性回歸33
3.1.2 廣義線性模型37
3.1.3 廣義加性模型41
3.1.4 決策樹48
3.2 EBM模型52
3.2.1 模型定義52
3.2.2 識別二階交互項53
3.2.3 實現(xiàn)算法56
3.2.4 模型解釋性59
3.2.5 模型的優(yōu)勢與不足62
3.3 GAMINet模型63
3.3.1 模型定義64
3.3.2 GAMINet的3個重要準則66
3.3.3 實現(xiàn)算法70
3.3.4 模型解釋性72
3.3.5 模型的優(yōu)勢與不足77
3.4 RuleFit模型77
3.4.1 模型定義78
3.4.2 規(guī)則提取79
3.4.3 實現(xiàn)算法81
3.4.4 模型解釋性81
3.4.5 模型的優(yōu)勢與不足84
3.5 Falling Rule Lists模型85
3.5.1 模型定義85
3.5.2 模型參數(shù)估計87
3.5.3 實現(xiàn)算法88
3.5.4 模型解釋性89
3.5.5 模型的優(yōu)勢與不足90
3.6 GAMMLI模型91
3.6.1 傳統(tǒng)推薦算法的不足92
3.6.2 交互項效應擬合方法94
3.6.3 自適應軟填充95
3.6.4 模型解釋性97
3.6.5 模型的優(yōu)勢與不足99
3.7 本章小結99
第4章 復雜模型事后解析方法101
4.1 部分依賴圖102
4.1.1 部分依賴函數(shù)102
4.1.2 估計方法103
4.1.3 部分依賴圖的局限105
4.1.4 個體條件期望圖106
4.1.5 實例演示107
4.2 累積局部效應圖111
4.2.1 從部分依賴圖到累積局部效應圖112
4.2.2 累積局部效應方程114
4.2.3 實例演示116
4.2.4 ALE方法的優(yōu)劣118
4.3 LIME事后解析方法118
4.3.1 局部代理模型119
4.3.2 LIME方法的基本流程120
4.3.3 LIME方法的解釋121
4.3.4 LIME方法的優(yōu)劣123
4.4 SHAP事后解析方法124
4.4.1 SHAP的基本思想125
4.4.2 Shapley Value126
4.4.3 SHAP的實現(xiàn)算法128
4.4.4 SHAP方法的解釋137
4.4.5 SHAP方法的優(yōu)劣140
4.4.6 擴展閱讀141
4.5 本章小結143
第三部分 實例
第5章 銀行VIP客戶流失預警及歸因分析146
5.1 案例背景146
5.2 數(shù)據(jù)介紹147
5.3 建模分析148
5.3.1 目標定義148
5.3.2 數(shù)據(jù)處理149
5.3.3 模型構建150
5.3.4 流失歸因151
5.4 營銷建議157
5.5 代碼展示159
5.6 本章小結162
第6章 銀行個人客戶信用評分模型研究163
6.1 案例背景163
6.2 數(shù)據(jù)介紹164
6.3 建模分析165
6.3.1 目標定義165
6.3.2 數(shù)據(jù)處理166
6.3.3 模型構建167
6.4 三種方法對比180
6.5 代碼展示182
6.6 擴展思考:基于規(guī)則的特征衍生186
6.7 本章小結188
第7章 銀行理財產(chǎn)品推薦建模分析189
7.1 場景介紹189
7.1.1 推薦系統(tǒng)190
7.1.2 銀行中的推薦系統(tǒng)193
7.2 數(shù)據(jù)介紹196
7.2.1 推薦場景數(shù)據(jù)特點196
7.2.2 Santander數(shù)據(jù)集197
7.3 建模分析199
7.3.1 數(shù)據(jù)處理199
7.3.2 模型構建200
7.3.3 模型結果評估204
7.4 案例分析208
7.5 本章小結211