關(guān)于我們
書單推薦
新書推薦
|
大數(shù)據(jù)金融與征信
本書面向金融應(yīng)用,系統(tǒng)地闡述了大數(shù)據(jù)金融與征信本身及其在現(xiàn)實(shí)生活中的應(yīng)用,具有全面性、實(shí)用性和前瞻性等特色。全書共8章,第1章和第2章闡述大數(shù)據(jù)金融及大數(shù)據(jù)技術(shù)相關(guān)的基礎(chǔ)知識(shí)問題,是后面章節(jié)的基礎(chǔ)。第3章至第6章詳細(xì)介紹大數(shù)據(jù)在銀行業(yè)、證券業(yè)、保險(xiǎn)業(yè)及互聯(lián)網(wǎng)金融行業(yè)中的應(yīng)用,是本書的主要內(nèi)容。第7章重點(diǎn)闡述大數(shù)據(jù)在征信中的實(shí)際應(yīng)用,是本書的另一重點(diǎn)問題,也是當(dāng)代大數(shù)據(jù)研究的熱點(diǎn)問題。第8章特別強(qiáng)調(diào)中國金融信息安全,這是大數(shù)據(jù)金融與征信的發(fā)展進(jìn)程中不可避免的問題。本書力爭把大數(shù)據(jù)與其實(shí)際應(yīng)用糅合在一起介紹,力求活學(xué)活用。
本書可以作為高等學(xué);ヂ(lián)網(wǎng)金融院系課程教材,也可供互聯(lián)網(wǎng)金融研究者、從業(yè)者、管理人員參考所用。
本書主要有以下幾個(gè)特點(diǎn):
內(nèi)容全面。
全書以大數(shù)據(jù)為出發(fā)點(diǎn),結(jié)合國內(nèi)外的發(fā)展現(xiàn)狀及新模式,系統(tǒng)地介紹了大數(shù)據(jù)在銀行業(yè)、證券業(yè)、保險(xiǎn)業(yè)、互聯(lián)網(wǎng)金融行業(yè)及征信中的應(yīng)用,并強(qiáng)調(diào)了在應(yīng)用過程中,中國金融信息安全的重要性及保障機(jī)制。本書內(nèi)容涵蓋面極廣,有效地為各行各業(yè)的讀者提供了大數(shù)據(jù)金融與征信的宏觀視圖。
體例新穎。
本書秉承著注重實(shí)際運(yùn)用的宗旨,編寫體例上彰顯了可讀性和互動(dòng)性。每章前有“本章目標(biāo)”和“本章簡介”,每章末有“本章總結(jié)”和“課后作業(yè)”。書中除了理論教學(xué),還配有相關(guān)案例和解析,突出理論與實(shí)踐相結(jié)合,打破了傳統(tǒng)“羅列發(fā)條”的教材編寫模式,通俗易懂,開拓了學(xué)生的視野,更好地滿足了培養(yǎng)既懂專業(yè)知識(shí)又能運(yùn)用所學(xué)知識(shí)解決實(shí)際問題的“復(fù)合型”經(jīng)濟(jì)人才的需求。
大數(shù)據(jù)金融是大數(shù)據(jù)在金融領(lǐng)域的重要應(yīng)用。大數(shù)據(jù)金融市場前景廣闊,預(yù)計(jì)未來5年到10年,金融大數(shù)據(jù)產(chǎn)業(yè)將迎來黃金增長期,大數(shù)據(jù)也將成為助推“大眾創(chuàng)業(yè)、萬眾創(chuàng)新”浪潮的有力抓手。
本書為適應(yīng)高等學(xué);ヂ(lián)網(wǎng)金融專業(yè)人才培養(yǎng)的需要,從理論聯(lián)系實(shí)際的原則出發(fā),以大數(shù)據(jù)的實(shí)際運(yùn)用為導(dǎo)向,對大數(shù)據(jù)在金融各行業(yè)的應(yīng)用做了全面系統(tǒng)的介紹。 全書共分為8章,包括大數(shù)據(jù)金融概述、大數(shù)據(jù)相關(guān)技術(shù)、大數(shù)據(jù)在商業(yè)銀行中的應(yīng)用、大數(shù)據(jù)在證券行業(yè)中的應(yīng)用、大數(shù)據(jù)在保險(xiǎn)行業(yè)中的應(yīng)用、大數(shù)據(jù)在互聯(lián)網(wǎng)金融中的應(yīng)用、大數(shù)據(jù)征信、大數(shù)據(jù)與中國金融信息安全。 由于大數(shù)據(jù)金融剛剛興起,可供參考的資料不多,本書也僅僅是在這方面的一個(gè)探索,故全書整體框架以編者自己的思路進(jìn)行呈現(xiàn)。本書以應(yīng)用特別是金融領(lǐng)域前沿的應(yīng)用為導(dǎo)向,以在各行業(yè)的實(shí)踐為主線展開。本書內(nèi)容新穎全面,論述問題極具現(xiàn)實(shí)意義。本書可以作為高等院;ヂ(lián)網(wǎng)金融專業(yè)相關(guān)課程的教材,也可供互聯(lián)網(wǎng)金融研究者、從業(yè)者、管理人員參考。 全書主要有以下兩大特點(diǎn)。 (1) 內(nèi)容全面。 本書以大數(shù)據(jù)為出發(fā)點(diǎn),結(jié)合國內(nèi)外的發(fā)展現(xiàn)狀及最新模式,系統(tǒng)地介紹了大數(shù)據(jù)在銀行業(yè)、證券業(yè)、保險(xiǎn)業(yè)、互聯(lián)網(wǎng)金融行業(yè)及征信中的應(yīng)用,并強(qiáng)調(diào)了在應(yīng)用過程中,中國金融信息安全的重要性及保障機(jī)制。本書內(nèi)容涵蓋面極廣,有效地為各行各業(yè)的讀者提供了大數(shù)據(jù)金融與征信的宏觀視圖。 (2) 體例新穎。 本書秉承著注重實(shí)際運(yùn)用的宗旨,編寫體例上彰顯了可讀性和互動(dòng)性。每章前有“本章目標(biāo)”和“本章簡介”,每章末有“本章總結(jié)”和“本章作業(yè)”。書中除了理論教學(xué),還配有相關(guān)案例和解析,使理論與實(shí)踐相結(jié)合,通俗易懂,開拓了學(xué)生的視野,可以更好地滿足培養(yǎng)既懂專業(yè)知識(shí)又能運(yùn)用所學(xué)知識(shí)解決實(shí)際問題的“復(fù)合型”經(jīng)濟(jì)人才需求。 本書由新邁爾(北京)特技有限公司組織研發(fā),由何平平擬定大綱并進(jìn)行統(tǒng)稿,湖南大學(xué)互聯(lián)網(wǎng)金融研究所組織撰寫。本書由何平平、車云月?lián)沃骶帲韵卵芯可矃⑴c了本書的編寫:王楊毅彬、周春亞、張童、劉詩雨、劉晶宇。 本書編寫過程中參考了大量的文獻(xiàn)資料,有些已經(jīng)在書后的參考文獻(xiàn)中標(biāo)注,而有些沒有,在此一并表示感謝。囿于時(shí)間和個(gè)人能力,書中難免有疏漏和不妥之處,敬請讀者批評指正。 何平平
車云月,五洲樹人教育投資有限公司創(chuàng)始人,知名職教專家,創(chuàng)新型校企合作國內(nèi)領(lǐng)軍人物,“5411”教育理念創(chuàng)始人。擔(dān)任新邁爾教育集團(tuán)總裁,中關(guān)村加一戰(zhàn)略新興產(chǎn)業(yè)人才發(fā)展中心主任等職位。在IT類創(chuàng)新和綜合性人才培養(yǎng)等方面都做出了突破性的創(chuàng)新。憑借其多年的教育行業(yè)從業(yè)經(jīng)驗(yàn)與實(shí)干精神,打開了國內(nèi)職業(yè)教育的新局面。近年來更涉足國際教育領(lǐng)域,力爭使我國的職業(yè)教育更加國際化,培養(yǎng)更加國際化的專業(yè)人才。
何平平,博士,副教授,碩士研究生導(dǎo)師,主持完成國家自然科學(xué)基金項(xiàng)目1項(xiàng),教育部人文社會(huì)科學(xué)規(guī)劃項(xiàng)目1項(xiàng),省社科基金重點(diǎn)項(xiàng)目1項(xiàng),省科技項(xiàng)目5項(xiàng),企業(yè)委托研究項(xiàng)目2項(xiàng),出版專著1部,教材1部,發(fā)表論文20余篇,現(xiàn)在湖南大學(xué)金融與統(tǒng)計(jì)學(xué)院工作,任湖南大學(xué)互聯(lián)網(wǎng)金融研究所所長。
第1章 大數(shù)據(jù)金融概述 1
1.1 大數(shù)據(jù)概述 2
1.1.1 大數(shù)據(jù)的內(nèi)涵與特征 2
1.1.2 大數(shù)據(jù)的分類 7
1.1.3 大數(shù)據(jù)的價(jià)值 8
1.2 大數(shù)據(jù)應(yīng)用領(lǐng)域 10
1.2.1 商業(yè) 10
1.2.2 通信 11
1.2.3 醫(yī)療 13
1.2.4 金融 16
1.3 大數(shù)據(jù)金融的內(nèi)涵、特點(diǎn)與優(yōu)勢 18
1.3.1 大數(shù)據(jù)金融的內(nèi)涵 18
1.3.2 大數(shù)據(jù)金融的特點(diǎn) 19
1.3.3 大數(shù)據(jù)金融相對于傳統(tǒng)
金融的優(yōu)勢 20
1.4 大數(shù)據(jù)帶來金融業(yè)大變革 20
1.4.1 大數(shù)據(jù)帶來銀行業(yè)大變革 21
1.4.2 大數(shù)據(jù)帶來保險(xiǎn)業(yè)大變革 22
1.4.3 大數(shù)據(jù)帶來證券業(yè)大變革 23
1.4.4 大數(shù)據(jù)帶來征信行業(yè)大變革 25
1.4.5 互聯(lián)網(wǎng)金融中的大數(shù)據(jù)應(yīng)用 26
1.5 大數(shù)據(jù)金融模式 27
1.5.1 平臺(tái)金融模式 27
1.5.2 供應(yīng)鏈金融模式 29
1.6 大數(shù)據(jù)金融信息安全 30
1.7 大數(shù)據(jù)應(yīng)用案例 30
1.7.1 案例之一:滴滴出行 30
1.7.2 案例之二:大數(shù)據(jù)與美團(tuán)
外賣的精細(xì)化運(yùn)營 34
本章總結(jié) 43
本章作業(yè) 44
第2章 大數(shù)據(jù)相關(guān)技術(shù) 45
2.1 大數(shù)據(jù)處理流程 46
2.1.1 數(shù)據(jù)采集 46
2.1.2 數(shù)據(jù)預(yù)處理 47
2.1.3 數(shù)據(jù)存儲(chǔ) 48
2.1.4 數(shù)據(jù)挖掘 48
2.1.5 數(shù)據(jù)解釋 49
2.2 數(shù)據(jù)來源 49
2.2.1 核心數(shù)據(jù) 50
2.2.2 外圍數(shù)據(jù) 52
2.2.3 常規(guī)渠道數(shù)據(jù) 53
2.3 大數(shù)據(jù)架構(gòu) 54
2.3.1 HDFS系統(tǒng) 56
2.3.2 MapReduce 60
2.3.3 HBase 62
2.4 數(shù)據(jù)挖掘方法 63
2.4.1 分類分析 64
2.4.2 回歸分析 65
2.4.3 其他方法 66
本章總結(jié) 69
本章作業(yè) 70
第3章 大數(shù)據(jù)在商業(yè)銀行中的應(yīng)用 71
3.1 客戶關(guān)系管理 72
3.1.1 客戶細(xì)分 72
3.1.2 預(yù)見客戶流失 74
3.1.3 高效渠道管理 75
3.1.4 推出增值服務(wù),提升客戶
忠誠度 75
3.1.5 案例——大數(shù)據(jù)幫助商業(yè)銀行
改善與客戶的關(guān)系 76
3.2 精準(zhǔn)營銷 76
3.2.1 客戶生命周期管理 77
3.2.2 實(shí)時(shí)營銷 78
3.2.3 交叉營銷 79
3.2.4 社交化營銷 80
3.2.5 個(gè)性化推薦 81
3.3 信貸管理 82
3.3.1 貸款風(fēng)險(xiǎn)評估 82
3.3.2 信用卡自動(dòng)授信 84
3.3.3 案例——大數(shù)據(jù)為商業(yè)銀行
信貸管理提供更多可能 85
3.4 風(fēng)險(xiǎn)管理 86
3.4.1 大數(shù)據(jù)風(fēng)險(xiǎn)控制與傳統(tǒng)風(fēng)險(xiǎn)
控制的區(qū)別 86
3.4.2 基于大數(shù)據(jù)的銀行風(fēng)險(xiǎn)管理
模式 89
3.4.3 反欺詐 95
3.4.4 反洗錢 99
3.5 運(yùn)營優(yōu)化 101
3.5.1 市場和渠道分析優(yōu)化 101
3.5.2 產(chǎn)品和服務(wù)優(yōu)化 103
3.5.3 網(wǎng)絡(luò)輿情分析 104
3.5.4 案例——大數(shù)據(jù)分析助力
手機(jī)銀行優(yōu)化創(chuàng)新 106
本章總結(jié) 108
本章作業(yè) 109
第4章 大數(shù)據(jù)在證券行業(yè)中的應(yīng)用 111
4.1 大數(shù)據(jù)在股票分析中的應(yīng)用 112
4.1.1 基于基本面分析的數(shù)據(jù)挖掘
方法 112
4.1.2 基于技術(shù)分析的數(shù)據(jù)挖掘
方法 113
4.1.3 決策樹法的應(yīng)用 114
4.1.4 聚類分析法的應(yīng)用 115
4.1.5 人工神經(jīng)網(wǎng)絡(luò)算法的應(yīng)用 116
4.2 客戶關(guān)系管理 119
4.2.1 客戶細(xì)分 119
4.2.2 客戶滿意度 122
4.2.3 流失客戶預(yù)測 124
4.3 投資情緒分析 127
4.3.1 投資者情緒的測量 127
4.3.2 基于網(wǎng)絡(luò)輿情的投資者情緒
分析 129
4.4 大數(shù)據(jù)與量化投資 134
4.4.1 量化投資概述 134
4.4.2 證券量化投資中的主要分析
工具 135
4.4.3 大數(shù)據(jù)在證券量化投資中的
應(yīng)用 136
本章總結(jié) 139
本章作業(yè) 140
第5章 大數(shù)據(jù)在保險(xiǎn)業(yè)中的應(yīng)用 141
5.1 大數(shù)據(jù)保險(xiǎn) 142
5.1.1 大數(shù)據(jù)保險(xiǎn)的概念和特征 142
5.1.2 保險(xiǎn)業(yè)大數(shù)據(jù)應(yīng)用的階段 143
5.1.3 大數(shù)據(jù)在保險(xiǎn)行業(yè)中的
作用 144
5.1.4 大數(shù)據(jù)下的數(shù)據(jù)服務(wù)架構(gòu) 146
5.1.5 保險(xiǎn)業(yè)大數(shù)據(jù)應(yīng)用現(xiàn)狀 147
5.2 承保定價(jià) 150
5.2.1 大數(shù)據(jù)與傳統(tǒng)保險(xiǎn)定價(jià)
理論 150
5.2.2 大數(shù)據(jù)對承保定價(jià)的革新 151
5.2.3 大數(shù)據(jù)在車險(xiǎn)定價(jià)中的
應(yīng)用 153
5.2.4 大數(shù)據(jù)在健康險(xiǎn)定價(jià)中的
應(yīng)用 156
5.3 精準(zhǔn)營銷 162
5.3.1 保險(xiǎn)精準(zhǔn)營銷 162
5.3.2 大數(shù)據(jù)與保險(xiǎn)精準(zhǔn)營銷 164
5.3.3 組建垂直平臺(tái)生態(tài)圈 167
5.3.4 大數(shù)據(jù)精準(zhǔn)營銷在保險(xiǎn)業(yè)中的
應(yīng)用 169
5.4 欺詐識(shí)別 171
5.4.1 保險(xiǎn)欺詐 171
5.4.2 大數(shù)據(jù)與保險(xiǎn)反欺詐 173
5.4.3 大數(shù)據(jù)與車險(xiǎn)反欺詐 176
5.4.4 大數(shù)據(jù)與健康險(xiǎn)的理賠
風(fēng)險(xiǎn) 180
本章總結(jié) 182
本章作業(yè) 183
第6章 互聯(lián)網(wǎng)金融中的大數(shù)據(jù)應(yīng)用 185
6.1 基于大數(shù)據(jù)的第三方支付欺詐
風(fēng)險(xiǎn)管理 186
6.1.1 第三方支付中的欺詐風(fēng)險(xiǎn) 186
6.1.2 大數(shù)據(jù)應(yīng)用與欺詐
風(fēng)險(xiǎn)防范 186
6.2 大數(shù)據(jù)在網(wǎng)絡(luò)借貸中的應(yīng)用 189
6.2.1 推薦系統(tǒng)簡述 189
6.2.2 P2P網(wǎng)站中的個(gè)性化推薦 190
6.2.3 基于VITA系統(tǒng)的信貸產(chǎn)品
匹配機(jī)制 191
6.3 大數(shù)據(jù)在互聯(lián)網(wǎng)供應(yīng)鏈金融中的
應(yīng)用 193
6.3.1 基于大數(shù)據(jù)的互聯(lián)網(wǎng)企業(yè)
信用評估 194
6.3.2 案例:京東供應(yīng)鏈金融
模式 197
6.4 大數(shù)據(jù)在互聯(lián)網(wǎng)消費(fèi)金融中的
應(yīng)用 198
6.4.1 互聯(lián)網(wǎng)消費(fèi)金融的大數(shù)據(jù)
征信與風(fēng)控 198
6.4.2 案例:芝麻信用 199
本章總結(jié) 199
本章作業(yè) 200
第7章 大數(shù)據(jù)征信 201
7.1 傳統(tǒng)征信 202
7.1.1 征信概述 202
7.1.2 征信的基本流程 209
7.1.3 征信行業(yè)產(chǎn)業(yè)鏈 212
7.1.4 征信產(chǎn)品 212
7.1.5 征信機(jī)構(gòu) 216
7.1.6 征信體系 218
7.2 大數(shù)據(jù)征信 227
7.2.1 大數(shù)據(jù)征信概述 227
7.2.2 大數(shù)據(jù)征信的理論基礎(chǔ) 230
7.2.3 大數(shù)據(jù)征信流程 233
7.3 大數(shù)據(jù)征信典型企業(yè) 233
7.3.1 國外大數(shù)據(jù)征信典型企業(yè) 233
7.3.2 國內(nèi)大數(shù)據(jù)征信典型企業(yè) 242
本章總結(jié) 249
本章作業(yè) 250
第8章 大數(shù)據(jù)與中國金融信息安全 251
8.1 金融信息安全的重要性 252
8.1.1 金融信息安全的含義 252
8.1.2 金融信息安全的屬性特征 253
8.1.3 金融信息安全的重要性 254
8.2 大數(shù)據(jù)給我國金融信息安全帶來的
機(jī)遇和挑戰(zhàn) 256
8.2.1 大數(shù)據(jù)給金融信息安全
帶來的機(jī)遇 256
8.2.2 大數(shù)據(jù)給我國金融信息
安全帶來的挑戰(zhàn) 257
8.2.3 案例:美國“棱鏡門”
事件 259
8.3 大數(shù)據(jù)金融信息安全風(fēng)險(xiǎn) 263
8.3.1 大數(shù)據(jù)金融信息安全風(fēng)險(xiǎn)的
類型 263
8.3.2 大數(shù)據(jù)金融信息安全風(fēng)險(xiǎn)的
特征 266
8.3.3 國內(nèi)外金融信息安全事件及
事故 268
8.4 我國金融信息安全現(xiàn)狀及
制約因素 272
8.4.1 我國金融信息安全現(xiàn)狀 272
8.4.2 我國金融信息安全的
制約因素 274
8.5 美國金融信息安全保障機(jī)制 275
8.5.1 美國金融信息安全保障
機(jī)制的特點(diǎn) 275
8.5.2 美國金融信息安全保障
機(jī)制的主要做法 276
8.6 我國金融信息安全建設(shè) 277
8.6.1 完善頂層設(shè)計(jì),盡快構(gòu)建適應(yīng)
我國金融發(fā)展需要的金融信息
安全保障體系 277
8.6.2 盡快制定我國金融行業(yè)國產(chǎn)
信息技術(shù)產(chǎn)品和服務(wù)替代
戰(zhàn)略 277
8.6.3 盡快制定金融行業(yè)自主可控
戰(zhàn)略實(shí)施步驟,推進(jìn)自主可
控國家戰(zhàn)略 278
8.6.4 應(yīng)用大數(shù)據(jù)進(jìn)行信息安全
分析 278
本章總結(jié) 278
本章作業(yè) 279
參考文獻(xiàn) 281
第2章 大數(shù)據(jù)相關(guān)技術(shù)
本章目標(biāo) * 掌握大數(shù)據(jù)處理流程:數(shù)據(jù)采集、預(yù)處理、存儲(chǔ)、挖掘和解釋 * 掌握大數(shù)據(jù)的3種來源:核心數(shù)據(jù)、外圍數(shù)據(jù)、常規(guī)渠道數(shù)據(jù) * 掌握大數(shù)據(jù)的主要架構(gòu) * 掌握數(shù)據(jù)挖掘常用方法 本章簡介 本章從大數(shù)據(jù)處理流程、數(shù)據(jù)來源、大數(shù)據(jù)生態(tài)圈及主要架構(gòu)、數(shù)據(jù)挖掘的主要方法幾個(gè)方面來介紹大數(shù)據(jù)的相關(guān)技術(shù)。 2.1 大數(shù)據(jù)處理流程 大數(shù)據(jù)的處理流程歸納為:首先利用多種輕型數(shù)據(jù)庫收集海量數(shù)據(jù),對不同來源的數(shù)據(jù)進(jìn)行預(yù)處理后,整合存儲(chǔ)到大型數(shù)據(jù)庫中;然后根據(jù)企業(yè)或個(gè)人目的和需求,運(yùn)用合適的數(shù)據(jù)挖掘技術(shù)提取有益的知識(shí);最后利用恰當(dāng)?shù)姆绞綄⒔Y(jié)果展現(xiàn)給終端用戶。具體包括:數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)挖掘及數(shù)據(jù)解釋這5個(gè)步驟,如圖2.1所示。 圖2.1 大數(shù)據(jù)的處理流程 2.1.1 數(shù)據(jù)采集 大數(shù)據(jù)的采集是大數(shù)據(jù)處理過程中的第一步,它是數(shù)據(jù)分析和挖掘的基礎(chǔ)。大數(shù)據(jù)的采集是指在確定用戶目標(biāo)的基礎(chǔ)上,對該范圍內(nèi)的所有結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行采集的過程。采集的數(shù)據(jù)大部分是瞬時(shí)值,還包括某時(shí)段內(nèi)的特征值。大數(shù)據(jù)的主要來源有商業(yè)數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)、傳感器數(shù)據(jù)。針對不同來源的數(shù)據(jù),具有不同的采集方法。主要的大數(shù)據(jù)采集方法有系統(tǒng)日志采集方法、網(wǎng)絡(luò)數(shù)據(jù)采集方法、其他數(shù)據(jù)采集方法。 1. 系統(tǒng)日志采集方法 大多數(shù)互聯(lián)網(wǎng)企業(yè)都有自己的海量數(shù)據(jù)采集工具,常用于系統(tǒng)日志采集,如Scribe、 Flume、Chukwa、Kafka等。Scribe是Facebook開源的日志收集系統(tǒng),能夠從各種日志源收集日志,存儲(chǔ)到一個(gè)中央存儲(chǔ)系統(tǒng)中,以便于進(jìn)行集中統(tǒng)計(jì)分析和處理;Chukwa屬于Hadoop系列產(chǎn)品,是一個(gè)大型的分布式系統(tǒng)監(jiān)測數(shù)據(jù)的收集系統(tǒng),提供了很多模塊以支持Hadoop集群分析;Flume是cloudera的開源日志系統(tǒng),能夠有效地收集匯總和移動(dòng)大量的實(shí)時(shí)日志數(shù)據(jù)。這些工具均采用分布式架構(gòu),能滿足每秒數(shù)百M(fèi)B的日志數(shù)據(jù)采集和傳輸需求。 2. 網(wǎng)絡(luò)數(shù)據(jù)采集方法 網(wǎng)絡(luò)數(shù)據(jù)采集是指利用互聯(lián)網(wǎng)搜索引擎技術(shù)從網(wǎng)站抓取數(shù)據(jù)信息。目前,網(wǎng)絡(luò)數(shù)據(jù)的采集基本上是利用垂直搜索引擎技術(shù)的網(wǎng)絡(luò)爬蟲或數(shù)據(jù)采集機(jī)器人、分詞系統(tǒng)、任務(wù)與索引系統(tǒng)等技術(shù)進(jìn)行綜合運(yùn)用而完成。該方法可以將非結(jié)構(gòu)化數(shù)據(jù)從網(wǎng)頁中抽取出來,將其存儲(chǔ)為統(tǒng)一的本地?cái)?shù)據(jù)文件,并以結(jié)構(gòu)化的方式存儲(chǔ)。它支持圖片、音頻、視頻等文件或附件的采集,附件與正文可以自動(dòng)關(guān)聯(lián)。除了網(wǎng)絡(luò)中包含的內(nèi)容之外,對于網(wǎng)絡(luò)流量的采集可以使用DPI或DFI等帶寬管理技術(shù)進(jìn)行處理。 3. 其他數(shù)據(jù)采集方法 對于企業(yè)生產(chǎn)經(jīng)營數(shù)據(jù)或?qū)W科研究數(shù)據(jù)等保密性要求較高的數(shù)據(jù),可以通過與企業(yè)或研究機(jī)構(gòu)合作,使用特定系統(tǒng)接口等相關(guān)方式采集數(shù)據(jù)。 在大數(shù)據(jù)的采集過程中,同一網(wǎng)站同一時(shí)間可能會(huì)有很多用戶訪問和操作。例如,火車票售票網(wǎng)站和淘寶,它們并發(fā)的訪問量在峰值時(shí)超過了上百萬,并發(fā)數(shù)十分高。因此,需要在采集端部署大量數(shù)據(jù)庫才能支撐。 2.1.2 數(shù)據(jù)預(yù)處理 由于第一步收集得到的數(shù)據(jù)是原始數(shù)據(jù),存在著不完整、不一致的問題,無法直接存儲(chǔ)到數(shù)據(jù)庫中進(jìn)行數(shù)據(jù)挖掘。因此,在將來自前端的數(shù)據(jù)導(dǎo)入一個(gè)集中的大型數(shù)據(jù)庫或者分布式存儲(chǔ)集群前,需要對大數(shù)據(jù)進(jìn)行預(yù)處理,這樣不但能夠節(jié)約大量的空間和時(shí)間,還能得到更好的數(shù)據(jù)挖掘結(jié)果。大數(shù)據(jù)預(yù)處理包括對數(shù)據(jù)進(jìn)行清理、集成、變換和歸約4個(gè)過程。 1. 數(shù)據(jù)清理 數(shù)據(jù)清理是數(shù)據(jù)準(zhǔn)備過程中最乏味也是最關(guān)鍵的一步。其目的是填補(bǔ)缺失的數(shù)據(jù)、平滑噪聲數(shù)據(jù)、刪除冗余數(shù)據(jù)、糾正錯(cuò)誤數(shù)據(jù)、清除異常數(shù)據(jù),將原始的數(shù)據(jù)格式進(jìn)行標(biāo)準(zhǔn)化。 ……
你還可能感興趣
我要評論
|