本書(shū)圍繞大數(shù)據(jù)分析方法,闡述了大數(shù)據(jù)采集方法,大數(shù)據(jù)清洗方法,詳細(xì)介紹了大數(shù)據(jù)存儲(chǔ)方法,大數(shù)據(jù)分布式計(jì)算方法,大數(shù)據(jù)分析模型構(gòu)建方法,大數(shù)據(jù)分析模型檢驗(yàn)方法,大數(shù)據(jù)分析模型優(yōu)化方法。全書(shū)提供了大量的案例,對(duì)程序進(jìn)行了詳細(xì)的分析和解讀。本書(shū)的實(shí)用價(jià)值較高,對(duì)從事大數(shù)據(jù)分析的科研人員、研發(fā)人員具有一定的借鑒參考作用。
作者開(kāi)展大數(shù)據(jù)分析項(xiàng)目研究方法的總結(jié)和歸納,內(nèi)容極基實(shí)用
為什么要寫(xiě)本書(shū)
大數(shù)據(jù)時(shí)代,人們面對(duì)大數(shù)據(jù),首先想到的是如何分析大數(shù)據(jù),目前介紹大數(shù)據(jù)分析方法的書(shū)籍卻不是很多。作者從事大數(shù)據(jù)分析研究工作多年,很想將做過(guò)的大數(shù)據(jù)研究課題積累的一些分析方法分享給各位讀者。
本書(shū)組織結(jié)構(gòu)
本書(shū)的結(jié)構(gòu)依據(jù)大數(shù)據(jù)的處理構(gòu)建的,包括:組織,依次為大數(shù)據(jù)采集處理方法、大數(shù)據(jù)存儲(chǔ)方法、大數(shù)據(jù)分布式計(jì)算方法、大數(shù)據(jù)分析模型構(gòu)建方法、大數(shù)據(jù)分析模型檢驗(yàn)方法、大數(shù)據(jù)分析模型優(yōu)化方法。
本書(shū)的主要內(nèi)容
第1章介紹了大數(shù)據(jù)采集處理方法,重點(diǎn)介紹了如何從互聯(lián)網(wǎng)上采集數(shù)據(jù),介紹了網(wǎng)絡(luò)爬蟲(chóng)程序的設(shè)計(jì)和編寫(xiě)方法以及數(shù)據(jù)清洗方法,著重介紹如何清洗機(jī)器學(xué)習(xí)訓(xùn)練數(shù)據(jù)。
第2章介紹了大數(shù)據(jù)存儲(chǔ)方法,重點(diǎn)介紹了分布式文件存儲(chǔ)系統(tǒng)的原理、配置方法與使用方法。重點(diǎn)介紹了分布式數(shù)據(jù)庫(kù)Hbase原理、配置方法與使用方法。
第3章介紹了大數(shù)據(jù)分布式計(jì)算的實(shí)現(xiàn)方法,詳細(xì)介紹了如何搭建Hadoop大數(shù)據(jù)處理平臺(tái),列舉了詳細(xì)的搭建過(guò)程,提供了Hadoop搭建所需的各種配置文件源代碼,提供了構(gòu)建Hadoop所需的命令語(yǔ)句。著重介紹了MapReduce框架結(jié)構(gòu),運(yùn)行機(jī)理,MapReduce源代碼分析,各種接口和類分析。本章給出了豐富的MapReduce示例,對(duì)示例進(jìn)行詳細(xì)的解讀,讀者可以模仿示例編寫(xiě)自己的MapReduce程序。
第4章介紹了大數(shù)據(jù)分析模型構(gòu)建方法,主要介紹了如何通過(guò)機(jī)器學(xué)習(xí)方法構(gòu)建大數(shù)據(jù)分析模型。
第5章介紹了大數(shù)據(jù)分析模型的檢驗(yàn)方法,分析模型建立以后如何進(jìn)行檢驗(yàn),這往往是一個(gè)難點(diǎn),如何檢驗(yàn)?zāi)P褪欠襁_(dá)到了最初設(shè)計(jì)標(biāo)準(zhǔn),用什么手段來(lái)檢驗(yàn)非常關(guān)鍵,檢驗(yàn)方法是否科學(xué)都很重要。此章還介紹了機(jī)器學(xué)習(xí)構(gòu)建模型常用的檢驗(yàn)方法,如回歸診斷、交叉驗(yàn)證等方法。
第6章重點(diǎn)介紹了模型建立以后,如何優(yōu)化,介紹了幾種優(yōu)化方法,如逐步遞歸法、主成分分析優(yōu)化方法等,特別介紹了通過(guò)神經(jīng)網(wǎng)絡(luò)進(jìn)行優(yōu)化。
本書(shū)的優(yōu)勢(shì)
本書(shū)的內(nèi)容是作者從事科研項(xiàng)目的一些親身經(jīng)歷,開(kāi)展大數(shù)據(jù)分析項(xiàng)目研究方法的總結(jié)和歸納,內(nèi)容非常實(shí)用,為從事大數(shù)據(jù)分析的研究人員提供了研究步驟和方法。本書(shū)的模式是提出問(wèn)題,然后給出解決方法,這樣讀者如遇到類似問(wèn)題就可以參考書(shū)中提供的方法加以解決。
本書(shū)的受眾群體
本書(shū)的讀者主要是從事大數(shù)據(jù)分析的研究人員,大數(shù)據(jù)分析系統(tǒng)開(kāi)發(fā)人員,使用本書(shū)的人員應(yīng)該在大數(shù)據(jù)分析方面有一定的基礎(chǔ),本書(shū)的內(nèi)容比較深入,跳過(guò)了基本概念和基本理論,主要論述和探索大數(shù)據(jù)分析深層次的內(nèi)容和方法。
致謝
本書(shū)是基于北京市教委科技計(jì)劃一般課題:基于機(jī)器學(xué)習(xí)方法的房?jī)r(jià)大數(shù)據(jù)分析模型構(gòu)建研究(課題編號(hào):KM201610857002)研究?jī)?nèi)容編寫(xiě)的。
感謝項(xiàng)目組成員冀鋼、劉瑞新、范美英對(duì)本項(xiàng)目做出的貢獻(xiàn)。感謝參與和支持本項(xiàng)目的所有人員。感謝寇俊玲主編嚴(yán)謹(jǐn)和辛勤的工作。
陸紅,副教授,北京信息職業(yè)技術(shù)學(xué)院技術(shù)應(yīng)用研究所所長(zhǎng),多年從事計(jì)算機(jī)領(lǐng)域研究,主要研究方向:大數(shù)據(jù)、人工智能、軟件技術(shù)。主持多項(xiàng)省部級(jí)課題,其中一項(xiàng)獲教育部科技成果獎(jiǎng)。編寫(xiě)多部著作,發(fā)表多篇相關(guān)領(lǐng)域的學(xué)術(shù)論文。作為多個(gè)部委專家,主持完成多個(gè)部委信息化建設(shè)標(biāo)準(zhǔn)制定工作。主持完成多個(gè)部委信息化建設(shè)項(xiàng)目。
目錄
1大數(shù)據(jù)采集處理方法1
11爬蟲(chóng)程序設(shè)計(jì)方案1
12爬蟲(chóng)程序?qū)崿F(xiàn)方法5
13數(shù)據(jù)清洗20
2大數(shù)據(jù)存儲(chǔ)方法27
21分布式文件系統(tǒng)存儲(chǔ)大數(shù)據(jù)27
211HDFS體系結(jié)構(gòu)27
212HDFS數(shù)據(jù)存儲(chǔ)方式28
213HDFS讀寫(xiě)方式28
22分布式數(shù)據(jù)庫(kù)存儲(chǔ)大數(shù)據(jù)32
221Hbase體系結(jié)構(gòu)32
222配置Hbase33
223Hbase表操作38
224訪問(wèn)Hbase數(shù)據(jù)資源44
3大數(shù)據(jù)計(jì)算方法50
31分布式計(jì)算平臺(tái)構(gòu)建方法50
32分布式計(jì)算框架構(gòu)建方法60
33分布式計(jì)算程序設(shè)計(jì)方法63
4大數(shù)據(jù)分析模型構(gòu)建方法78
41準(zhǔn)備訓(xùn)練數(shù)據(jù)78
42機(jī)器學(xué)習(xí)路徑和算法設(shè)計(jì)方法82
43數(shù)據(jù)可視化輔助建模方法88
44構(gòu)建大數(shù)據(jù)分析模型91
5大數(shù)據(jù)分析模型檢驗(yàn)方法108
51回歸診斷108
52交叉驗(yàn)證113
6大數(shù)據(jù)分析模型優(yōu)化方法117
61Feature Scaling優(yōu)化法117
62逐步回歸優(yōu)化法118
63PCA主成分分析優(yōu)化方法120
64神經(jīng)網(wǎng)絡(luò)優(yōu)化大數(shù)據(jù)分析模型127
參考文獻(xiàn)151