基于大數(shù)據(jù)實現(xiàn)建;虍嬒裥枰ㄟ^專門的數(shù)據(jù)源以及互聯(lián)網(wǎng)獲取多種形式的數(shù)據(jù)才能完成。數(shù)據(jù)源多樣化給數(shù)據(jù)帶來了數(shù)據(jù)統(tǒng)一表達、數(shù)據(jù)規(guī)格化、降維等一系列問題。本書將深入研究互聯(lián)網(wǎng)大數(shù)據(jù)的特點, 研究數(shù)據(jù)預(yù)處理、約簡、降維、用戶建模等問題, 探索在互聯(lián)網(wǎng)大數(shù)據(jù)環(huán)境下的用戶準(zhǔn)確畫像等問題。
本書圍繞多源異構(gòu)數(shù)據(jù)的處理與應(yīng)用展開,系統(tǒng)地闡述了互聯(lián)網(wǎng)時代對于多源異構(gòu)數(shù)據(jù)處理的重要意義,全面、客觀地敘述了對多源異構(gòu)數(shù)行處理的相關(guān)技術(shù),詳細地分析了多源異構(gòu)數(shù)據(jù)的主要應(yīng)用場景。可為相關(guān)領(lǐng)域的學(xué)生、項目開發(fā)人員及科研人員提供必要的理論參考。
全書共分八章,其中第pan>章緒論主要介紹多源異構(gòu)數(shù)據(jù)處理的相關(guān)研究現(xiàn)狀、預(yù)備知識、傳統(tǒng)數(shù)據(jù)與多源異構(gòu)大數(shù)據(jù)的區(qū)別。第2章網(wǎng)絡(luò)用戶特征分析的創(chuàng)新驅(qū)動力——互聯(lián)網(wǎng)大數(shù)據(jù)主要介紹大數(shù)據(jù)的來源與價值、大數(shù)據(jù)帶來的挑戰(zhàn)和機遇、多源異構(gòu)大數(shù)據(jù)用戶建模特點及優(yōu)勢。第3章數(shù)據(jù)預(yù)處理主要介紹數(shù)據(jù)預(yù)處理的目的和意義、原始數(shù)據(jù)的基本特征、數(shù)據(jù)預(yù)法及應(yīng)用。第4章用戶特征指標(biāo)設(shè)計主要介紹用戶畫像問題概述、用戶畫像與大數(shù)據(jù)的關(guān)系、用戶畫像模型構(gòu)建等內(nèi)容。第5章多源異構(gòu)數(shù)據(jù)的約簡問題主要介紹互聯(lián)網(wǎng)多源異構(gòu)數(shù)據(jù)約簡的必要性、數(shù)據(jù)約簡的主要方法、基于粗糙集的多源異構(gòu)數(shù)據(jù)約簡及應(yīng)用。第6章多源異構(gòu)用戶大數(shù)據(jù)建模介紹數(shù)據(jù)建模技結(jié)、用戶數(shù)據(jù)建模的主要方法。第7章多源異構(gòu)數(shù)據(jù)的企業(yè)級應(yīng)結(jié)若干種多源異構(gòu)數(shù)據(jù)建模的應(yīng)用場景。第8章多源異構(gòu)數(shù)據(jù)在個人信用評估中的應(yīng)用以信用評估為例,展示了多源異構(gòu)數(shù)據(jù)處理與建模的一個完整應(yīng)用流程。
本書由何志強、崔新會、湛維明、聶燕敏、申晨、裘詠霄、柳凌燕參與。
具體分工為:崔新會負(fù)責(zé)第pan>、2章,聶燕敏負(fù)責(zé)第3章,申晨負(fù)責(zé)第4章,湛維明負(fù)責(zé)第5章,裘詠霄負(fù)責(zé)第6章,何志強負(fù)責(zé)第7章,柳凌燕負(fù)責(zé)第8章。全書由何志強完成統(tǒng)稿和審閱。本書的撰寫受河北金融學(xué)院科研和智慧金融應(yīng)用技術(shù)研發(fā)中心支持。
由于時間倉促,不妥之處歡迎讀者批評指正。
第pan>章緒論
1.pan>研究背景和意義
1.2國內(nèi)外研究現(xiàn)狀
1.3預(yù)備知識
1.4傳統(tǒng)數(shù)據(jù)與多源異構(gòu)大數(shù)據(jù)
1.5本書的研究工作和組織結(jié)構(gòu)
第2章網(wǎng)絡(luò)用戶特征分析的創(chuàng)新驅(qū)動力——互聯(lián)網(wǎng)大數(shù)據(jù).17
2.pan>研究動機
2.2大數(shù)據(jù)的來源與價值
2.3大數(shù)據(jù)帶來的挑戰(zhàn)和機遇
2.4多源異構(gòu)大數(shù)據(jù)用戶建模特點及優(yōu)勢
第3章數(shù)據(jù)預(yù)處理.
3.pan>數(shù)據(jù)預(yù)處理的目的和意義
3.2原始數(shù)據(jù)的基本特征.
3.3數(shù)據(jù)預(yù)法及分類
3.3.pan>數(shù)據(jù)預(yù)處理的分類.
3.3.2數(shù)據(jù)預(yù)法簡介
3.4數(shù)據(jù)預(yù)處理技術(shù)
3.4.pan>數(shù)據(jù)集成
3.4.2數(shù)據(jù)集成.
3.4.3數(shù)據(jù)變換,
3.5降維問題..
3.6案例分析.
3.6.pan>案例一:軟件工程師求職信息挖掘
3.6.2案例二:銀行客戶精準(zhǔn)營銷案例
3.6.3案例三:客戶分類案例.
3.7本章小結(jié)
第4章用戶特征指標(biāo)設(shè)計
4.pan>用戶畫像問題概述
4.1.pan>用戶畫像的概念
4.1.2用戶畫像的作用
4.2用戶畫像與大數(shù)據(jù)的關(guān)系
4.3用戶畫像的指標(biāo)參數(shù)
4.3.pan>按照用戶反饋類型分類
4.3.2按照指標(biāo)的屬性分類
4.4基于屬性約簡的指標(biāo)體系優(yōu)化方法.
4.4.pan>屬性約簡對于指標(biāo)體系優(yōu)化的意義.
4.4.2屬性約簡的一般方法
4.4.3指標(biāo)體系優(yōu)化方法
4.4.4數(shù)字圖書館用戶指標(biāo)體系優(yōu)化實例.
4.5本章小結(jié)
第5章多源異構(gòu)數(shù)據(jù)的約簡問題
5.pan>研究動機.
5.1.pan>互聯(lián)網(wǎng)多源異構(gòu)數(shù)據(jù)約簡的必要性
5.1.2個人多源異構(gòu)數(shù)據(jù)建模下的信用數(shù)據(jù)特征
5.1.3企業(yè)多源異構(gòu)數(shù)據(jù)建模下的信用數(shù)據(jù)特征
5.2數(shù)據(jù)約簡的主要方法
5.2.pan>多源異構(gòu)數(shù)據(jù)約簡的意義
5.2.2多源異構(gòu)數(shù)據(jù)約簡的分類
5.2.3基本的數(shù)據(jù)約簡算法
5.3基于粗糙集的多源異構(gòu)數(shù)據(jù)約簡
5.3.pan>經(jīng)典粗糙集模型
5.3.2基于粗糙集模行屬性約簡的主要方法
5.3.3基于粗糙集信息熵模型的數(shù)據(jù)約簡方法及其應(yīng)用....115
5.3.4粗糙集屬性約簡法的優(yōu)缺點
5.4小結(jié)
第6章多源異構(gòu)用戶大數(shù)據(jù)建模
6.pan>數(shù)據(jù)建模
6.1.pan>線性回歸
6.1.2非線性回歸分析
6.1.3小二乘法
6.1.4主成分分析法
6.1.5K-means算法
6.1.6決策樹算法
6.1.7ID3算法
6.1.8神經(jīng)網(wǎng)絡(luò)算法
6.1.9BP網(wǎng)絡(luò)模型
6.2用戶數(shù)據(jù)建模.
第7章多源異構(gòu)數(shù)據(jù)的企業(yè)級應(yīng)用
7.pan>相關(guān)支撐架構(gòu)的變化
7.1.pan>傳統(tǒng)的企業(yè)級數(shù)據(jù)處理技術(shù)——數(shù)據(jù)倉庫
7.1.2現(xiàn)在及未來的企業(yè)級數(shù)據(jù)應(yīng)用架構(gòu)
7.2多源異構(gòu)數(shù)據(jù)的企業(yè)級應(yīng)用
7.2.pan>多源異構(gòu)企業(yè)級應(yīng)用pan>——企業(yè)決策支持應(yīng)用
7.2.2企業(yè)級應(yīng)用2——科技型企業(yè)投資價值分析
7.2.3多源異構(gòu)大數(shù)據(jù)在解決科技型企業(yè)融資風(fēng)險中可發(fā)揮的作用
7.2.4多源異構(gòu)大數(shù)據(jù)在B2B企業(yè)信用評價中的應(yīng)用…..174
7.2.5多源異構(gòu)數(shù)據(jù)在投資輿情分析中的應(yīng)用.
7.3本章結(jié)論及展望
第8章多源異構(gòu)數(shù)據(jù)在個人信用評估中的應(yīng)用
8.pan>個人信用評估相關(guān)理論概述
8.1.pan>個人信用的基本含義
8.1.2個人征信的基本含義
8.2國內(nèi)外個人征信體系發(fā)展概述
8.2.pan>美國個人征信體系發(fā)展概述
8.2.2歐洲個人征信體系發(fā)展概述。
8.2.3日本個人征信體系發(fā)展概述
8.2.4我國個人征信體系發(fā)展概述
8.3國內(nèi)外個人信用評估研展
8.3.pan>個人信用評估的基本流程
8.3.2國外個人信用評估方法研展。
8.3.3國內(nèi)個人信用評估方法研展。
8.4基于多源異構(gòu)的個人信用評估的指標(biāo)體系研究與構(gòu)建.….
8.4.pan>個人信用評估指標(biāo)體系中多源異構(gòu)數(shù)據(jù)的采集...2
8.4.2基于多源異構(gòu)的個人信用評估指標(biāo)體系構(gòu)建原則 3
8.4.3影響個人信用的因素分析
8.4.4基于多源異構(gòu)的個人信用評估模型研究
8.4.5多源異構(gòu)個人信用評估的發(fā)展方向.
參考文獻.
第pan>章緒論
1.pan>研究背景和意義
大數(shù)據(jù)已經(jīng)成為目前各行各業(yè)的熱詞,多源異構(gòu)這一名詞也隨著大數(shù)據(jù)應(yīng)用的深入頻繁出現(xiàn)在各個領(lǐng)域的創(chuàng)新中,時下幾乎成為與創(chuàng)新捆綁的關(guān)鍵要素。多源異構(gòu)大數(shù)據(jù)真正的含義是什么,大數(shù)據(jù)具有什么樣的特性,以及給行業(yè)應(yīng)用創(chuàng)新帶來了哪些機遇,我們又當(dāng)如何利用大數(shù)據(jù)的價值等問題已經(jīng)擺在我們面前。是隨著數(shù)據(jù)融合的需求和發(fā)展趨勢愈發(fā)顯著,需要很多在傳統(tǒng)應(yīng)用中相對獨立的信息子系統(tǒng)之間的融合,期間面臨數(shù)據(jù)格式多樣性、非結(jié)構(gòu)化數(shù)據(jù)采集、數(shù)據(jù)融合等問題,以及數(shù)據(jù)融合后的應(yīng)用創(chuàng)新等。因年來多源異構(gòu)數(shù)據(jù)融合及利用成為數(shù)據(jù)行業(yè)研究與應(yīng)用的熱點問題。
過去的30年中,信息技術(shù)應(yīng)用從世紀(jì)80年代起步,到90年代到2pan>世紀(jì)初期的快速發(fā)展,再發(fā)展到如今滲透到了社會的各個角落。在這一發(fā)展過程中,隨著信息設(shè)備和信息應(yīng)用軟件的多樣化,人類社會產(chǎn)生數(shù)據(jù)的方式和數(shù)量均發(fā)生了日新月異的變化。信息技術(shù)發(fā)展起步階段,信息的產(chǎn)生主要依賴人工以及小型業(yè)務(wù)數(shù)據(jù)庫,甚至數(shù)據(jù)庫之間的聯(lián)網(wǎng)共享都很難做到;90年代以后,隨著局域網(wǎng)技術(shù)的成熟,園區(qū)網(wǎng)快速推廣和互聯(lián)網(wǎng)接入技術(shù)的快速變革,加上萬維網(wǎng)技術(shù)了用戶交互的快速發(fā)展,數(shù)據(jù)的累積速度顯著加快,基于業(yè)務(wù)的信息互聯(lián)成為這一時期數(shù)據(jù)產(chǎn)生的主要驅(qū)動力,使信息互聯(lián)的方式得到了極大的改變,10年間,移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)的廣泛應(yīng)用和人工智能技術(shù)、并行計算處理技術(shù)的快速發(fā)展,人類產(chǎn)生數(shù)據(jù)無論是維度、復(fù)雜度還是數(shù)量均有了很大的提高,這既給數(shù)據(jù)處理帶來了挑戰(zhàn),同時也為數(shù)據(jù)的深度融合與應(yīng)用帶來了的機遇。
大數(shù)據(jù)處理和分析技術(shù)隨之成為信息技術(shù)領(lǐng)域的研究熱點,以云計算為代表的海量異構(gòu)數(shù)據(jù)處理技術(shù)得到了快速發(fā)展,數(shù)據(jù)處理能力的給數(shù)據(jù)端系統(tǒng)的應(yīng)用創(chuàng)新提供了更大的空間,并且隨著研究的深入,技術(shù)步又反過來帶來了新的數(shù)據(jù)產(chǎn)生方式和驅(qū)動力。例如以智能手機代表的移動互聯(lián)網(wǎng),應(yīng)用的深入發(fā)展一方面催生了應(yīng)用的創(chuàng)新,出現(xiàn)了大量的以電子商務(wù)、社交、支付、垂直領(lǐng)域創(chuàng)新為代表的新應(yīng)用,而與此同時應(yīng)用創(chuàng)新也在反過來推動信息采集和數(shù)據(jù)分析需求的快速發(fā)展,是在電商、支付、興趣點等領(lǐng)域,在移動互聯(lián)網(wǎng)的支持下,信息的透明度在不斷加強,深層次的商業(yè)價值和更加人性化的服務(wù)挖掘已經(jīng)成為可能;再例如LBS應(yīng)用從起初的位置搜索、導(dǎo)航應(yīng)用逐步向商業(yè)信息推送與精準(zhǔn)營銷、社交網(wǎng)絡(luò)等很多領(lǐng)域滲透,隨之帶來的就是純位置數(shù)據(jù)已經(jīng)無法滿足LBS應(yīng)一步發(fā)展的需要,而是需要融合更多種類的用戶數(shù)據(jù)才能達到更高的分析度,從而發(fā)掘其中的應(yīng)用和商業(yè)價值。
可見,在大數(shù)據(jù)條件下實現(xiàn)數(shù)據(jù)分析與挖掘,推動應(yīng)用向更深層次發(fā)展,其研究的關(guān)注點已經(jīng)從傳統(tǒng)的強關(guān)聯(lián)數(shù)據(jù)逐步向更多數(shù)據(jù)源及其產(chǎn)生的弱關(guān)聯(lián)數(shù)據(jù)拓展。更重要的是,基于移動互聯(lián)和物聯(lián)網(wǎng)技術(shù)采集的網(wǎng)絡(luò)用戶數(shù)據(jù),具有相當(dāng)高的客觀度,能夠基于這些數(shù)據(jù)實現(xiàn)用戶特征更加客觀的刻畫,這一點為未來大數(shù)據(jù)的深度應(yīng)用帶來了巨大的發(fā)展空間。多源異構(gòu)數(shù)據(jù)在全、生物、等領(lǐng)域已經(jīng)有了初步應(yīng)用,證明了多源異構(gòu)數(shù)據(jù)融合對于提高推演結(jié)論的度的有效性。在經(jīng)濟金融領(lǐng)域,隨著金融信息科技的快速發(fā)展,充分利用金融大數(shù)據(jù)開展金融應(yīng)用創(chuàng)新成為金融行業(yè)未來的發(fā)展突破口,例如傳統(tǒng)商業(yè)銀行除了紛紛推出網(wǎng)上銀行之外,在網(wǎng)店業(yè)務(wù)創(chuàng)新、創(chuàng)新理財產(chǎn)品、營銷、對公業(yè)務(wù)、產(chǎn)品營銷等很多方行了創(chuàng)新,這些創(chuàng)新均有大數(shù)據(jù)技術(shù)和人工智能在背后的支持幾年得到快速發(fā)展的互聯(lián)網(wǎng)金融更是金融和信息深度融合的發(fā)展成果,隨期互聯(lián)網(wǎng)金融發(fā)展從粗放增長向理性的轉(zhuǎn)變,創(chuàng)新產(chǎn)品開發(fā)和風(fēng)險控制成為互聯(lián)網(wǎng)金融向更深層次發(fā)展的必由之路;此外,工業(yè)界出現(xiàn)了工業(yè)4.0、工業(yè)互聯(lián)網(wǎng)、智能制造、管控一體化、人機一體化等各種基于大數(shù)據(jù)、互聯(lián)技術(shù)的變革概念,已經(jīng)在工業(yè)生產(chǎn)領(lǐng)域產(chǎn)生了顯著的作用,我國也在的下在多家制造企業(yè)實施了智能制造試點項目。