Python金融數(shù)據(jù)挖掘與分析實(shí)戰(zhàn)
定 價(jià):109 元
叢書(shū)名:金融科技
- 作者:劉鵬,高中強(qiáng)
- 出版時(shí)間:2021/12/1
- ISBN:9787111696506
- 出 版 社:機(jī)械工業(yè)出版社
- 中圖法分類:TP311.561
- 頁(yè)碼:
- 紙張:膠版紙
- 版次:
- 開(kāi)本:16開(kāi)
內(nèi)容簡(jiǎn)介
這是一本金融數(shù)據(jù)挖掘與分析領(lǐng)域的實(shí)戰(zhàn)性著作,它能指導(dǎo)零Python編程基礎(chǔ)和零數(shù)據(jù)挖掘與分析基礎(chǔ)的讀者快速掌握金融數(shù)據(jù)挖掘與分析的工具、技術(shù)和方法。
讀完本書(shū),你將會(huì)有如下3個(gè)方面的收獲:
(1)Python編程基礎(chǔ)和數(shù)據(jù)預(yù)處理
首先詳細(xì)講解了Python的核心語(yǔ)法,以及NumPy、Matplotlib、PySpark、Jupyter Notebook等Python數(shù)據(jù)處理工具的使用;然后詳細(xì)介紹了數(shù)據(jù)預(yù)處理的流程和技巧。通過(guò)深入淺出的語(yǔ)言和豐富的樣例展示,幫助初學(xué)者快速上手 Python,為之后的數(shù)據(jù)分析實(shí)戰(zhàn)夯實(shí)基礎(chǔ)。
(2)數(shù)據(jù)挖掘與分析的經(jīng)典方法
詳細(xì)講解了經(jīng)典的數(shù)據(jù)挖掘方法,包括聚類分析、回歸分析、分類分析、異常檢測(cè)、關(guān)聯(lián)分析、時(shí)間序列分析等。
(3)主要金融應(yīng)用場(chǎng)景的數(shù)據(jù)挖掘方法
針對(duì)網(wǎng)絡(luò)輿情的采集和熱點(diǎn)分析、輿情分析中的情感分析、股價(jià)趨勢(shì)預(yù)測(cè)、個(gè)人信用評(píng)分、企業(yè)信用評(píng)分、用戶畫像、目標(biāo)客戶精準(zhǔn)分析、銷售數(shù)據(jù)分析等金融行業(yè)的常見(jiàn)應(yīng)用場(chǎng)景,給出了數(shù)據(jù)挖掘和分析的方法。
本書(shū)注重實(shí)戰(zhàn),配有大量精心設(shè)計(jì)的案例,同時(shí)還有配套的視頻講解、代碼和數(shù)據(jù)資源,可操作性強(qiáng)。
作者背景資深:作者是云計(jì)算、大數(shù)據(jù)和AI領(lǐng)域的知名專家,云創(chuàng)大數(shù)據(jù)總裁、中國(guó)大數(shù)據(jù)應(yīng)用聯(lián)盟人工智能專家委員會(huì)主任。寫作經(jīng)驗(yàn)豐富:作者團(tuán)隊(duì)寫作經(jīng)驗(yàn)豐富,不僅深諳數(shù)據(jù)挖掘技術(shù)和金融行業(yè),而且有豐富的出版經(jīng)驗(yàn),能準(zhǔn)確把握讀者需求。零基礎(chǔ)快入門:即便讀者沒(méi)有Python經(jīng)驗(yàn),沒(méi)有數(shù)據(jù)挖掘和分析經(jīng)驗(yàn),也能快速掌握常見(jiàn)金融應(yīng)用場(chǎng)景的數(shù)據(jù)挖掘和分析。實(shí)戰(zhàn)性強(qiáng):本書(shū)配有大量精心設(shè)計(jì)的案例、講解視頻、實(shí)現(xiàn)代碼、數(shù)據(jù)資源、習(xí)題及其答案。
為何會(huì)寫本書(shū)
數(shù)據(jù)挖掘是指從大量的數(shù)據(jù)中,通過(guò)統(tǒng)計(jì)、人工智能、機(jī)器學(xué)習(xí)等方法,挖掘人們未知的、有價(jià)值的信息和知識(shí)的過(guò)程。它帶來(lái)的顛覆性在于將隱藏在大量雜亂數(shù)據(jù)中的有用信息提煉出來(lái),通過(guò)算法自動(dòng)尋找變量間的關(guān)系。
隨著時(shí)代的發(fā)展,數(shù)據(jù)挖掘逐漸成為大數(shù)據(jù)技術(shù)的核心,如何挖掘并分析數(shù)據(jù)成為大數(shù)據(jù)技術(shù)發(fā)展面臨的重要議題。特別是在金融應(yīng)用領(lǐng)域,數(shù)據(jù)挖掘技術(shù)扮演著舉足輕重的角色。即使如此,縱觀目前國(guó)內(nèi)技術(shù)圖書(shū)市場(chǎng),真正結(jié)合理論與實(shí)踐講解金融領(lǐng)域數(shù)據(jù)挖掘與分析技術(shù)的圖書(shū)很少,可以系統(tǒng)呈現(xiàn)知識(shí)點(diǎn)并將代碼落地的專業(yè)書(shū)更是鳳毛麟角。
基于此,本書(shū)以應(yīng)用為導(dǎo)向,從數(shù)據(jù)挖掘出發(fā),借助Python語(yǔ)言,將數(shù)據(jù)挖掘理論知識(shí)與金融領(lǐng)域的實(shí)際應(yīng)用相結(jié)合,循序漸進(jìn)地介紹了Python金融數(shù)據(jù)的挖掘與分析。此外,本書(shū)每一章均配有視頻講解,詳解代碼每一步的運(yùn)行過(guò)程及原理,并提供完整代碼和數(shù)據(jù)資源,以幫助讀者更好地理解與應(yīng)用相關(guān)知識(shí)。
本書(shū)特色
一、內(nèi)容精煉,普適性強(qiáng)
本書(shū)從數(shù)據(jù)分析的工具入手,詳解Python的基礎(chǔ)規(guī)則和語(yǔ)法,由淺入深地講解深度學(xué)習(xí)相關(guān)算法和理論知識(shí),并與金融數(shù)據(jù)挖掘?qū)崙?zhàn)充分結(jié)合,可以幫助讀者在理解理論知識(shí)的基礎(chǔ)上體驗(yàn)數(shù)據(jù)分析實(shí)戰(zhàn),真正做到學(xué)以致用。
二、提供大量實(shí)戰(zhàn)經(jīng)驗(yàn)和學(xué)習(xí)實(shí)例
“授之以魚(yú),不如授之以漁!北緯(shū)在講解知識(shí)點(diǎn)時(shí),更注重方法與經(jīng)驗(yàn)的分享,包括“含金量”很高的成功經(jīng)驗(yàn)分享以及易錯(cuò)事項(xiàng)的總結(jié)分析。同時(shí),每章均提供一定的實(shí)例,將原理講解終落實(shí)到代碼實(shí)現(xiàn)上,幫助讀者在學(xué)習(xí)路上披荊斬棘,快速將理論與實(shí)踐融會(huì)貫通。
三、配備教學(xué)視頻和完整的源代碼
為了方便讀者學(xué)習(xí),作者針對(duì)每章內(nèi)容的核心知識(shí)點(diǎn)錄制了講解視頻,且提供PPT、完整代碼和數(shù)據(jù)資源。讀者關(guān)注公眾號(hào)“云創(chuàng)大數(shù)據(jù)”(cStor_cn),在公眾號(hào)回復(fù)本書(shū)書(shū)名,即可領(lǐng)取相關(guān)配套資源,使學(xué)習(xí)更為高效。每一章的習(xí)題答案也可從公眾號(hào)獲取。
四、針對(duì)初學(xué)者講解Python基礎(chǔ)知識(shí)
本書(shū)使用Python語(yǔ)言編寫代碼,通過(guò)深入淺出的語(yǔ)言與豐富的樣例展示,幫助初學(xué)者快速上手Python語(yǔ)言。
內(nèi)容簡(jiǎn)介
本書(shū)共分為14章,采用雙主線的寫作方式:一條主線是理論,涵蓋基礎(chǔ)理論相關(guān)概念的介紹以及各種算法原理的講解;另外一條主線是實(shí)戰(zhàn),既包括如何上手Python,又包括相關(guān)主題實(shí)例分析。
第1~3章為Python數(shù)據(jù)分析基礎(chǔ),內(nèi)容涵蓋了選取Python語(yǔ)言做數(shù)據(jù)分析的原因、Jupyter Notebook的使用、Python基礎(chǔ)知識(shí)和語(yǔ)法入門以及數(shù)據(jù)預(yù)處理流程和技巧,可幫助初學(xué)者快速上手Python,為之后的數(shù)據(jù)分析實(shí)戰(zhàn)夯實(shí)基礎(chǔ)。
第4章講解經(jīng)典的數(shù)據(jù)挖掘方法,包括聚類分析、回歸分析、分類分析、異常檢測(cè)、關(guān)聯(lián)分析、時(shí)間序列分析等。
本書(shū)從第5章開(kāi)始介紹深度學(xué)習(xí)相關(guān)的理論知識(shí)與實(shí)踐。其中,第5章主要介紹網(wǎng)絡(luò)輿情的采集和熱點(diǎn)分析,并通過(guò)爬取微博熱門評(píng)論對(duì)熱點(diǎn)話題進(jìn)行聚類分析,使讀者初步了解網(wǎng)絡(luò)輿情分析,為以后深入研究網(wǎng)絡(luò)輿情發(fā)展和變化打下堅(jiān)實(shí)的基礎(chǔ)。第6章詳細(xì)介紹輿情分析的重中之重:情感分類。從評(píng)論文本分析出用戶的情感傾向,精確掌握用戶對(duì)于某一產(chǎn)品的整體使用感受,便于向商戶提供產(chǎn)品決策支持信息。
第7章和第8章講解利用傳統(tǒng)的機(jī)器學(xué)習(xí)算法以及深度學(xué)習(xí)中的循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)股價(jià)趨勢(shì)進(jìn)行預(yù)測(cè),重點(diǎn)闡述了SVM算法和ARIMA算法,同時(shí)證明了市場(chǎng)情感對(duì)股票市場(chǎng)的發(fā)展趨勢(shì)有著不容忽視的影響。
第9~11章介紹了個(gè)人信用評(píng)分和企業(yè)信用評(píng)分的技術(shù)與方法,先后闡述了相關(guān)算法及理論基礎(chǔ),并結(jié)合具體實(shí)例,讓讀者更加清晰地了解并掌握個(gè)人及企業(yè)信用評(píng)估的整個(gè)流程。
人物畫像有利于精準(zhǔn)定位用戶群體并獲取用戶需求和反饋信息。第12章主要講解用戶畫像,包括用戶畫像的定義、標(biāo)簽體系、用戶畫像的意義以及用戶畫像的構(gòu)建等,還通過(guò)兩個(gè)用戶畫像的實(shí)戰(zhàn)案例,幫助讀者在實(shí)際應(yīng)用中進(jìn)一步理解和構(gòu)建用戶畫像。
第13章主要講述搭建目標(biāo)客戶運(yùn)營(yíng)體系流程、目標(biāo)客戶的挖掘與分類等,通過(guò)可視化展示、聚類算法以及LRFMC分類模型的建立精確區(qū)分目標(biāo)客戶,從而實(shí)現(xiàn)對(duì)客戶的精準(zhǔn)分群管理,達(dá)到穩(wěn)固企業(yè)運(yùn)營(yíng)體系的目的。第14章通過(guò)對(duì)銷售數(shù)據(jù)的進(jìn)一步分析挖掘,同時(shí)借助關(guān)聯(lián)規(guī)則—Apriori算法—實(shí)現(xiàn)商品智能推薦、關(guān)聯(lián)商品的組合銷售以及客戶的精準(zhǔn)營(yíng)銷,終達(dá)到讓企業(yè)獲取更多利潤(rùn)的目的。
讀者對(duì)象
本書(shū)適合以下幾類讀者:
金融行業(yè)數(shù)據(jù)相關(guān)崗位技術(shù)人員;
企業(yè)運(yùn)營(yíng)人員;
數(shù)據(jù)分析師;
數(shù)據(jù)挖掘工程師;
高等院校相關(guān)專業(yè)學(xué)生。
致謝
在此,特別感謝我的碩士導(dǎo)師謝希仁教授和博士導(dǎo)師李三立院士。謝希仁教授出版的《計(jì)算機(jī)網(wǎng)絡(luò)》已經(jīng)更新到了第8版,堪稱與時(shí)俱進(jìn)且日臻完美的典范,這時(shí)時(shí)提醒著我們要以這樣的標(biāo)準(zhǔn)來(lái)寫書(shū)。李三立院士是留蘇博士,為我國(guó)計(jì)算機(jī)事業(yè)做出了杰出貢獻(xiàn),曾任國(guó)家攀登計(jì)劃計(jì)算項(xiàng)目首席科學(xué)家。他治學(xué)嚴(yán)謹(jǐn),帶出了一大批杰出的學(xué)生。
本書(shū)是集體智慧的結(jié)晶,在此謹(jǐn)向付出辛勤勞動(dòng)的各位同行者致敬!書(shū)中難免會(huì)有不當(dāng)之處,請(qǐng)讀者不吝賜教。我的郵箱為gloud@126.com,微信公眾號(hào)為“劉鵬看未來(lái)”(lpoutlook)。
劉 鵬
2021年9月
作者介紹
劉鵬
教授,清華大學(xué)博士,云計(jì)算、大數(shù)據(jù)和人工智能領(lǐng)域的知名專家,南京云創(chuàng)大數(shù)據(jù)科技股份有限公司總裁、中國(guó)大數(shù)據(jù)應(yīng)用聯(lián)盟人工智能專家委員會(huì)主任。
中國(guó)電子學(xué)會(huì)云計(jì)算專家委員會(huì)云存儲(chǔ)組組長(zhǎng)、工業(yè)和信息化部云計(jì)算研究中心專家。中國(guó)信息協(xié)會(huì)教育分會(huì)人工智能教育專家委員會(huì)主任、教育部全國(guó)普通高校畢業(yè)生就業(yè)創(chuàng)業(yè)指導(dǎo)委員會(huì)委員、“2019年全國(guó)大學(xué)生數(shù)學(xué)建模比賽”命題人、“第45屆世界技能大賽”中國(guó)區(qū)云計(jì)算選拔賽裁判長(zhǎng)/專家指導(dǎo)組組長(zhǎng)、2002 PennySort國(guó)際計(jì)算機(jī)排序比賽冠軍與2003年全國(guó)挑戰(zhàn)杯總冠軍。提出的反垃圾郵件網(wǎng)格,被IEEE Cluster 2003評(píng)為杰出網(wǎng)格項(xiàng)目,為解決困擾全球的垃圾郵件問(wèn)題做出根本貢獻(xiàn),該技術(shù)成為云安全技術(shù)的基礎(chǔ)。
高中強(qiáng)
人工智能與大數(shù)據(jù)領(lǐng)域技術(shù)專家,有非常深厚的積累,擅長(zhǎng)機(jī)器學(xué)習(xí)和自然語(yǔ)言處理,尤其是深度學(xué)習(xí),熟悉Tensorflow、PyTorch等深度學(xué)習(xí)開(kāi)發(fā)框架。
曾獲“2019年全國(guó)大學(xué)生數(shù)學(xué)建模優(yōu)秀命題人獎(jiǎng)”。參與鐘南山院士指導(dǎo)新型冠狀病毒人工智能預(yù)測(cè)系統(tǒng)研發(fā)項(xiàng)目,與鐘南山院士團(tuán)隊(duì)共同發(fā)表學(xué)術(shù)論文《Modified SEIR and AI prediction of the epidemics trend of COVID-19 in China under public health interventions》。合著有參《人工智能:從小白到大神》、《人工智能數(shù)學(xué)基礎(chǔ)》等著作。
前 言
第1章 Python工作環(huán)境準(zhǔn)備 1
1.1 Anaconda環(huán)境安裝 1
1.2 常用Python 交互工具 4
1.3 Jupyter Notebook簡(jiǎn)介 6
1.4 習(xí)題 9
第2章 Python入門 10
2.1 Python基礎(chǔ)知識(shí) 10
2.2 Python基礎(chǔ)語(yǔ)法 11
2.3 Python變量類型 15
2.4 Python運(yùn)算符 20
2.4.1 算術(shù)運(yùn)算符 20
2.4.2 比較運(yùn)算符 22
2.4.3 賦值運(yùn)算符 23
2.4.4 按位運(yùn)算符 24
2.4.5 邏輯運(yùn)算符 25
2.4.6 成員運(yùn)算符 26
2.4.7 身份運(yùn)算符 27
2.4.8 運(yùn)算符優(yōu)先級(jí) 28
2.5 Python條件與循環(huán)語(yǔ)句 29
2.5.1 條件語(yǔ)句 29
2.5.2 循環(huán)語(yǔ)句 31
2.6 Python函數(shù) 38
2.7 Python模塊 43
2.8 Python 文件處理 46
2.9 Python異常 48
2.10 數(shù)據(jù)分析相關(guān)庫(kù) 50
2.10.1 NumPy 50
2.10.2 Matplotlib 51
2.10.3 PySpark 53
2.10.4 其他常用庫(kù) 54
2.11 習(xí)題 55
第3章 數(shù)據(jù)預(yù)處理 56
3.1 數(shù)據(jù)分析工作流程 56
3.2 數(shù)據(jù)預(yù)處理 58
3.2.1 數(shù)據(jù)集導(dǎo)入 59
3.2.2 數(shù)據(jù)概覽 60
3.2.3 數(shù)據(jù)清洗 61
3.2.4 類別變量轉(zhuǎn)換 66
3.2.5 數(shù)據(jù)分割 67
3.2.6 特征縮放 68
3.3 鳥(niǎo)瞰機(jī)器學(xué)習(xí) 71
3.4 習(xí)題 72
第4章 數(shù)據(jù)挖掘方法 74
4.1 分類分析 74
4.1.1 決策樹(shù) 75
4.1.2 支持向量機(jī) 75
4.1.3 分類算法的選擇 76
4.2 聚類分析 76
4.2.1 K均值算法 77
4.2.2 聚類算法和分類算法的區(qū)別 78
4.3 回歸分析 78
4.3.1 變量間的關(guān)系 79
4.3.2 回歸分析算法的分類和步驟 79
4.3.3 回歸分析算法的選擇 81
4.4 關(guān)聯(lián)分析 81
4.4.1 關(guān)聯(lián)規(guī)則 82
4.4.2 關(guān)聯(lián)規(guī)則的序列模式 82
4.5 時(shí)間序列分析 83
4.5.1 時(shí)間序列分析方法和步驟 83
4.5.2 時(shí)間序列的三種預(yù)測(cè)模式 85
4.6 異常檢測(cè) 85
4.7 推薦算法 86
4.8 習(xí)題 89
第5章 網(wǎng)絡(luò)輿情采集與熱點(diǎn)分析 90
5.1 網(wǎng)絡(luò)輿情概述 90
5.1.1 大數(shù)據(jù)網(wǎng)絡(luò)輿情背景 90
5.1.2 輿情處理過(guò)程 91
5.2 輿情數(shù)據(jù)采集 94
5.2.1 網(wǎng)絡(luò)輿情采集工具 95
5.2.2 網(wǎng)絡(luò)輿情數(shù)據(jù)爬取實(shí)例 100
5.3 實(shí)戰(zhàn):微博熱點(diǎn)話題聚類 104
5.4 習(xí)題 110
第6章 輿情研判之情感分類 112
6.1 情感分析介紹 112
6.1.1 情感分析分類 112
6.1.2 情感分析文本預(yù)處理 114
6.1.3 實(shí)戰(zhàn):中文文本處理練習(xí) 115
6.2 情感分類方法 118
6.2.1 基于詞典的情感分類 118
6.2.2 基于機(jī)器學(xué)習(xí)的情感分類 121
6.2.3 基于深度學(xué)習(xí)模型的情感分類 122
6.3 情感分類實(shí)戰(zhàn)演練 131
6.3.1 淘寶家電商品評(píng)論情感分類預(yù)測(cè) 131
6.3.2 客戶評(píng)論情感傾向預(yù)測(cè) 134
6.4 習(xí)題 140
第7章 用機(jī)器學(xué)習(xí)方法預(yù)測(cè)股價(jià) 142
7.1 股市數(shù)據(jù)分析價(jià)值 142
7.1.1 案例背景 142
7.1.2 案例價(jià)值 143
7.2 ARIMA模型 144
7.3 實(shí)戰(zhàn):基于SVM和ARIMA的股價(jià)預(yù)測(cè) 145
7.4 習(xí)題 156
第8章 用人工智能方法預(yù)測(cè)股價(jià) 157
8.1 神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)方法 157
8.1.1 門控循環(huán)單元 158
8.1.2 VADER情感分析 158
8.2 實(shí)戰(zhàn):基于LSTM和GRU的股價(jià)預(yù)測(cè) 159
8.3 實(shí)戰(zhàn):股票市場(chǎng)新聞情感分析 165
8.4 習(xí)題 172
第9章 個(gè)人信用評(píng)分 173
9.1 個(gè)人信用評(píng)分概述 173
9.1.1 需求背景 174
9.1.2 國(guó)內(nèi)外發(fā)展?fàn)顩r 175
9.2 信用評(píng)分的技術(shù)與方法 176
9.2.1 信用評(píng)分的簡(jiǎn)要?dú)v史 176
9.2.2 信用評(píng)分的主要模型與方法 176
9.3 信用評(píng)分卡模型 180
9.3.1 模型介紹 180
9.3.2 數(shù)據(jù)分箱 180
9.3.3 WOE值 182
9.3.4 IV值 183
9.3.5 邏輯回歸算法原理 185
9.3.6 模型評(píng)價(jià)指標(biāo) 186
9.3.7 建立信用評(píng)分卡 190
9.4 實(shí)戰(zhàn):信用評(píng)分卡 190
9.4.1 讀取數(shù)據(jù) 191
9.4.2 數(shù)據(jù)預(yù)處理 191
9.4.3 探索性分析 197
9.4.4 模型分析 204
9.4.5 建立信用評(píng)分卡 208
9.5 習(xí)題 211
第10章 個(gè)人信用等級(jí)評(píng)估 213
10.1 概述 213
10.2 個(gè)人信用等級(jí)評(píng)估方法 215
10.2.1 決策樹(shù) 215
10.2.2 隨機(jī)森林 221
10.2.3 XGBoost簡(jiǎn)介 224
10.2.4 多重共線性 228
10.2.5 數(shù)據(jù)重采樣 229
10.3 實(shí)戰(zhàn):個(gè)人信用等級(jí)評(píng)估 232
10.3.1 導(dǎo)入相應(yīng)包并讀取數(shù)據(jù) 232
10.3.2 查看數(shù)據(jù)情況 234
10.3.3 數(shù)據(jù)預(yù)處理及相關(guān)函數(shù)構(gòu)建 241
10.3.4 模型訓(xùn)練 244
10.3.5 預(yù)測(cè)并生成結(jié)果 251
10.4 習(xí)題 253
第11章 企業(yè)信用評(píng)估 255
11.1 企業(yè)信用評(píng)估概述 255
11.2 企業(yè)信用評(píng)估的技術(shù)與方法 257
11.2.1 支持向量機(jī) 257
11.2.2 樸素貝葉斯 259
11.2.3