白話大數(shù)據(jù)與機(jī)器學(xué)習(xí)
定 價(jià):69 元
- 作者:高揚(yáng), 衛(wèi)崢, 尹會(huì)生著
- 出版時(shí)間:2016/6/1
- ISBN:9787111538479
- 出 版 社:機(jī)械工業(yè)出版社
- 中圖法分類:TP274
- 頁碼:328頁
- 紙張:膠版紙
- 版次:1
- 開本:16K
資深大數(shù)據(jù)專家多年實(shí)戰(zhàn)經(jīng)驗(yàn)總結(jié),拒絕晦澀,開啟大數(shù)據(jù)與機(jī)器學(xué)習(xí)妙趣之旅。以降低學(xué)習(xí)曲線和閱讀難度為宗旨,系統(tǒng)講解統(tǒng)計(jì)學(xué)、數(shù)據(jù)挖掘算法、實(shí)際應(yīng)用案例、數(shù)據(jù)價(jià)值與變現(xiàn),以及高級(jí)拓展技能,并清晰勾勒出大數(shù)據(jù)技術(shù)路線與產(chǎn)業(yè)藍(lán)圖。
本書共分18章。用通俗易懂的語言,結(jié)合大量案例與漫畫,不枯燥,實(shí)用、接地氣。
第1~5章,這部分是大數(shù)據(jù)入門所需的系統(tǒng)性知識(shí),剖析大數(shù)據(jù)產(chǎn)業(yè)、數(shù)據(jù)與信息算法等的關(guān)系,妙解數(shù)學(xué)基礎(chǔ)(排列組合、概率、統(tǒng)計(jì)與分布),以及指標(biāo)化運(yùn)營(yíng)及體系構(gòu)建。這部分補(bǔ)足讀者的產(chǎn)業(yè)與相關(guān)概念認(rèn)知,以及所需的數(shù)學(xué)知識(shí)。為下面的數(shù)據(jù)挖掘算法的理解與應(yīng)用夯實(shí)基礎(chǔ)。
第6~8章,這部分介紹數(shù)據(jù)挖掘基礎(chǔ)知識(shí)與算法,講解了與數(shù)據(jù)息息相關(guān)的信息論,重點(diǎn)講解了:多維向量空間(向量和維度、矩陣及其計(jì)算、上卷和下鉆);
回歸(線性回歸、殘差分析、擬合相關(guān)問題);
聚類(K-Means算法、有趣模式、孤立點(diǎn)、層次與密度聚類,聚類的評(píng)估等);
分類(樸素貝葉斯、決策樹歸納、隨機(jī)森林、隱馬爾科夫模型、SVM、遺傳算法)。
第11~18章,這部分介紹生產(chǎn)應(yīng)用與高級(jí)擴(kuò)展。其中第11~15章介紹生產(chǎn)應(yīng)用實(shí)踐,涵蓋關(guān)聯(lián)分析、用戶畫像、推薦算法、文本挖掘、人工神經(jīng)網(wǎng)絡(luò)。這些也是工業(yè)界和學(xué)術(shù)界研究的熱點(diǎn)。第16章講解了著名的大數(shù)據(jù)框架及其安裝與配置,如Hadoop、Spark、Cassandra、PrestoDB。第17章從速度與穩(wěn)定性維度介紹了大數(shù)據(jù)系統(tǒng)的架構(gòu)與調(diào)優(yōu)。第18章則從數(shù)據(jù)運(yùn)營(yíng)、評(píng)估、展現(xiàn)與變現(xiàn)場(chǎng)景層面進(jìn)行了解讀。
附錄部分給出了大數(shù)據(jù)平臺(tái)運(yùn)行可能需要的軟件和庫,以及群眾如何看待炙手可熱的大數(shù)據(jù)。
資深大數(shù)據(jù)專家多年實(shí)戰(zhàn)經(jīng)驗(yàn)總結(jié),拒絕晦澀,開啟大數(shù)據(jù)與機(jī)器學(xué)習(xí)妙趣之旅
以降低學(xué)習(xí)曲線和閱讀難度為宗旨,重點(diǎn)講解了統(tǒng)計(jì)學(xué)、數(shù)據(jù)挖掘算法、實(shí)際應(yīng)用案例、數(shù)據(jù)價(jià)值與變現(xiàn),以及高級(jí)拓展技能,清晰勾勒出大數(shù)據(jù)技術(shù)路線與產(chǎn)業(yè)藍(lán)圖
目前很多大中型企業(yè)都有數(shù)據(jù)分析崗位,尤其是和自己業(yè)務(wù)結(jié)合緊密的分析崗位。企業(yè)求賢若渴,而求職者對(duì)數(shù)據(jù)分析崗位望而卻步。這就是當(dāng)前大數(shù)據(jù)分析市場(chǎng)的尷尬。
原因有三:
●數(shù)學(xué)基礎(chǔ)薄弱:很多應(yīng)用中的統(tǒng)計(jì)學(xué)、概率學(xué),成為學(xué)習(xí)中的巨大阻力。
●學(xué)習(xí)成本高:數(shù)學(xué)和相關(guān)的算法過于抽象,布道者往往忽略了很多解釋性的內(nèi)容,使得讀者學(xué)習(xí)起來費(fèi)時(shí)費(fèi)力。
●變現(xiàn)不確定:這也是數(shù)據(jù)分析人員的尷尬。個(gè)人對(duì)數(shù)據(jù)的加工增值以及變現(xiàn)有多大的貢獻(xiàn)難以度量。
本書通俗易懂,有高中數(shù)學(xué)基礎(chǔ)即可看懂,同時(shí)結(jié)合大量案例與漫畫,將高度抽象的數(shù)學(xué)、算法與應(yīng)用,與現(xiàn)實(shí)生活中的案例和事件一一做了關(guān)聯(lián),將源自生活的抽象還原出來,幫助讀者理解后,又帶領(lǐng)大家將這些抽象的規(guī)律與算法應(yīng)用于實(shí)踐,貼合讀者需求。同時(shí),本書不是割裂講解大數(shù)據(jù)與機(jī)器學(xué)習(xí)的算法和應(yīng)用,還講解了其生態(tài)環(huán)境與關(guān)聯(lián)內(nèi)容,讓讀者更全面地知曉淵源與未來,是系統(tǒng)學(xué)習(xí)大數(shù)據(jù)與機(jī)器學(xué)習(xí)的不二之選:
●大數(shù)據(jù)產(chǎn)業(yè)解讀——剖析產(chǎn)業(yè)情況,人才供需、職業(yè)選擇與相應(yīng)“武器”庫;
●步入大數(shù)據(jù)之門——解讀數(shù)據(jù)、信息、算法,以及與大數(shù)據(jù)應(yīng)用的關(guān)系;
●大數(shù)據(jù)基石——結(jié)合大量示例和漫畫,趣味講解大數(shù)據(jù)算法應(yīng)掌握的數(shù)學(xué)知識(shí),無障礙學(xué)習(xí);
●大數(shù)據(jù)算法奧義——信息論、向量空間、回歸、聚類、分類等*為核心的算法的釋義與應(yīng)用,舉重若輕;
●大數(shù)據(jù)熱門應(yīng)用——關(guān)聯(lián)分析、用戶畫像、推薦算法、文本挖掘、人工神經(jīng)網(wǎng)絡(luò)等*實(shí)用、*需要了解的應(yīng)用的原理與實(shí)現(xiàn);
●大數(shù)據(jù)主流框架——介紹了主流的大數(shù)據(jù)框架(Hadoop、Spark和Cassandra);
●系統(tǒng)架構(gòu)與調(diào)優(yōu)——從速度與穩(wěn)定性方面給出調(diào)優(yōu)的一般性“內(nèi)功心法”;
●大數(shù)據(jù)價(jià)值與變現(xiàn)——從運(yùn)營(yíng)指標(biāo)、AB測(cè)試、大數(shù)據(jù)價(jià)值與變現(xiàn)場(chǎng)景多維度解讀。
為什么要寫這本書
不知從何時(shí)開始我們已周身沒入大數(shù)據(jù)時(shí)代的潮流,不知不覺被卷入了大數(shù)據(jù)時(shí)代。
無論是每天上網(wǎng)看網(wǎng)頁、聊QQ、聊微信,或者登錄銀行、網(wǎng)購、買票,或者出行、投宿,甚至是出入任何公眾場(chǎng)合、駕車、用水用電……我們無時(shí)無刻不在生產(chǎn)著各種數(shù)據(jù)。而同時(shí)我們也在消費(fèi)著其他人生產(chǎn)的數(shù)據(jù),我們使用的眾多家電產(chǎn)品,每一個(gè)設(shè)計(jì)細(xì)節(jié)都融入了設(shè)計(jì)者對(duì)用戶體驗(yàn)數(shù)據(jù)的調(diào)查與分析;我們使用的每一部手機(jī)、每一臺(tái)電腦,每一個(gè)部件的產(chǎn)出都融入著多得無法想象的指標(biāo)數(shù)據(jù)控制下的生產(chǎn)與監(jiān)控;我們?cè)L問的每一個(gè)網(wǎng)頁、每一個(gè)軟件,每一次享受到的貼心的產(chǎn)品改動(dòng)和服務(wù)的升級(jí),無不浸透著無數(shù)的數(shù)據(jù)匯集與精細(xì)的分析和反饋。這是一場(chǎng)慢慢到來的、貫穿所有產(chǎn)業(yè)的革命,這是一次潤(rùn)物細(xì)無聲的各行業(yè)精耕細(xì)作的開端。
不管我們是不是愿意,不管我們有沒有意識(shí)到,我們現(xiàn)在已經(jīng)身處大數(shù)據(jù)時(shí)代的奇點(diǎn),而未來要迎接的是大數(shù)據(jù)奇點(diǎn)爆炸給我們帶來的沖擊力。我們需要力量來駕馭浪里的航船,我們需要乘風(fēng)破浪前進(jìn)的動(dòng)力。
在這一次遠(yuǎn)航中,我們不必?fù)?dān)心自己的能力水平無法感知數(shù)據(jù)這種磅礴之力的氣魄,不必?fù)?dān)心晦澀難懂的公式定理會(huì)讓我們感到阻力。
請(qǐng)相信我,這是一本通俗易懂的大數(shù)據(jù)圖書,這是一本輕松愉悅的數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)的讀本,這是一本沒有門檻的機(jī)器學(xué)習(xí)實(shí)戰(zhàn)手冊(cè)。讓我們一起揚(yáng)帆遠(yuǎn)航吧!
本書特色
從行為脈絡(luò)來看,本書基本上是從數(shù)據(jù)統(tǒng)計(jì)、數(shù)據(jù)指標(biāo)理解、數(shù)據(jù)模型、聚類/分類與機(jī)器學(xué)習(xí)、數(shù)據(jù)應(yīng)用、大數(shù)據(jù)框架補(bǔ)充知識(shí),以及擴(kuò)展討論這樣的角度來層層深入完成的。
這種方式會(huì)給讀者比較好的帶入感,讓大家——尤其是不擅長(zhǎng)數(shù)學(xué)的讀者降低對(duì)大數(shù)據(jù)與機(jī)器學(xué)習(xí)算法的恐懼感。如果讀者朋友對(duì)排列組合、統(tǒng)計(jì)分布這些基礎(chǔ)知識(shí)比較了解,完全可以考慮跳過這些部分直接去讀后面更感興趣的內(nèi)容。
為了調(diào)節(jié)閱讀氣氛,我們還嘗試加入了一些漫畫插圖。為了讓讀者朋友能夠更快地進(jìn)行實(shí)踐,我們幾乎在每一個(gè)算法講解后都配有Python或者SQL語言的實(shí)現(xiàn)部分。相信這些能夠幫助大家更快、更輕松地閱讀本書。
讀者對(duì)象
。1)對(duì)大數(shù)據(jù)感興趣但是完全不了解的技術(shù)人員。
。2)對(duì)機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘比較感興趣的技術(shù)人員。
(3)大數(shù)據(jù)初級(jí)從業(yè)人員。
如何閱讀本書
本書一共分為18章。
第1章~第5章為入門所需基礎(chǔ)知識(shí)及對(duì)數(shù)據(jù)指標(biāo)運(yùn)營(yíng)的闡述。
第6章~第10章是對(duì)數(shù)據(jù)挖掘基礎(chǔ)知識(shí)與算法的介紹。
第11章~第18章為生產(chǎn)應(yīng)用與高級(jí)擴(kuò)展。
其中,第1章~第15章正文內(nèi)容,以及第17章、第18章的正文內(nèi)容由高揚(yáng)編寫。
全書所有的Python代碼由衛(wèi)崢編寫與補(bǔ)充整理。
第16章、附錄全部由尹會(huì)生編寫。
全書所有的漫畫插畫由萬娟創(chuàng)作完成。
勘誤和支持
由于水平有限,編寫時(shí)間倉促,書中難免會(huì)出現(xiàn)一些錯(cuò)誤或者不準(zhǔn)確的地方,懇請(qǐng)讀者批評(píng)指正。如果你有更多的寶貴意見,歡迎掃描下方的二維碼,關(guān)注“奇點(diǎn)大數(shù)據(jù)”微信公眾號(hào)和我們進(jìn)行互動(dòng)討論。關(guān)注大數(shù)據(jù)尖端技術(shù)發(fā)展,關(guān)注“奇點(diǎn)大數(shù)據(jù)”。
同時(shí),你也可以通過郵箱77232517@qq.com聯(lián)系到我,期待能夠得到你的真摯反饋,在技術(shù)之路上互勉共進(jìn)。
致謝
特別感謝:萬娟女士為本書做的漫畫插畫內(nèi)容。
萬娟女士現(xiàn)任深圳星盤科技有限公司UI設(shè)計(jì)師,是我在多年工作中遇到過的最敬業(yè)的UI設(shè)計(jì)師之一,在2013年一起合作的過程中給我留下了非常深刻的印象。
她多次參加全國(guó)和國(guó)際藝術(shù)比賽,曾獲得全國(guó)青少年繪畫大賽銅獎(jiǎng),中國(guó)–新加坡國(guó)際青少年繪畫比賽優(yōu)秀獎(jiǎng),以及全國(guó)大學(xué)生工業(yè)設(shè)計(jì)大賽三等獎(jiǎng)。從小酷愛繪畫,理想是開一個(gè)屬于自己的畫室。
她給我留下的最深刻的印象用兩個(gè)詞可以描述:一個(gè)詞是“敬業(yè)”,不管是在過去共事期間的合作,還是在為本書創(chuàng)作插畫的過程中,為了保證進(jìn)度帶病堅(jiān)持創(chuàng)作,都讓我非常感動(dòng);另一個(gè)詞是“唯美”,不僅人長(zhǎng)得美,作品設(shè)計(jì)風(fēng)格也透出現(xiàn)代與時(shí)尚的氣息。
此外還要對(duì)所有支持和關(guān)心本書成書的各界朋友表示由衷的感謝:
衷心感謝北京郵電大學(xué)軟件學(xué)院楊談老師對(duì)本書的審校工作。
衷心感謝騰訊公司數(shù)據(jù)分析師彭瑤女士對(duì)本書的審校工作。
衷心感謝重慶工商大學(xué)黃輝老師、楊藝?yán)蠋煂?duì)本書的大力支持。
衷心感謝機(jī)械工業(yè)出版社華章公司對(duì)本書的支持與幫助。
衷心感謝“奇點(diǎn)大數(shù)據(jù)”微信群友對(duì)本書的關(guān)注與支持。
高揚(yáng)
高揚(yáng),金山軟件西山居資深大數(shù)據(jù)架構(gòu)師與大數(shù)據(jù)專家,有多年編程經(jīng)驗(yàn)(多年日本和澳洲工作經(jīng)驗(yàn))和多年大數(shù)據(jù)架構(gòu)設(shè)計(jì)與數(shù)據(jù)分析、處理經(jīng)驗(yàn),目前負(fù)責(zé)西山居的大數(shù)據(jù)產(chǎn)品市場(chǎng)戰(zhàn)略與產(chǎn)品戰(zhàn)略。專注于大數(shù)據(jù)系統(tǒng)架構(gòu)以及變現(xiàn)研究。擅長(zhǎng)數(shù)據(jù)挖掘、數(shù)據(jù)建模、關(guān)系型數(shù)據(jù)庫應(yīng)用以及大數(shù)據(jù)框架Hadoop、Spark、Cassandra、Prestodb等的應(yīng)用。負(fù)責(zé)西山居紫霞系統(tǒng)——大數(shù)據(jù)日志處理系統(tǒng)的系統(tǒng)架構(gòu)與設(shè)計(jì)工作。
衛(wèi)崢,西山居軟件架構(gòu)師,多年的軟件開發(fā)和架構(gòu)經(jīng)驗(yàn),精通C/C++、Python、Golang、JavaScript等多門編程語言,近幾年專注于數(shù)據(jù)處理、機(jī)器學(xué)算法的研究、應(yīng)用與服務(wù)研發(fā)。曾在新浪網(wǎng)平臺(tái)架構(gòu)部負(fù)責(zé)音視頻轉(zhuǎn)碼平臺(tái)的架構(gòu)和研發(fā)工作,為新浪微博,新浪微盤,秒拍等提供視頻在線觀看服務(wù)。51CTO講師。
尹會(huì)生,西山居高級(jí)系統(tǒng)工程師。曾任新浪研發(fā)中心技術(shù)經(jīng)理、北京尚觀科技高級(jí)講師。在新浪廣告、微博廣告、西山居大數(shù)據(jù)平臺(tái)架構(gòu)中擔(dān)任關(guān)鍵角色。擅長(zhǎng)企業(yè)集群解決方案和內(nèi)核調(diào)優(yōu)經(jīng)驗(yàn),并提供高性能和高可用性集群咨詢服務(wù)。近4年專注于Hadoop集群、Spark集群在推薦系統(tǒng)和BI相關(guān)領(lǐng)域的解決方案。
萬娟,星盤科技有限公司UI設(shè)計(jì)師平面,對(duì)VI設(shè)計(jì)、包裝、海報(bào)設(shè)計(jì)等、商業(yè)插畫、App交互、網(wǎng)頁設(shè)計(jì)等有獨(dú)到認(rèn)識(shí)。多次參與智能家居和智能音箱等項(xiàng)目的UI設(shè)計(jì)。多次參加國(guó)際和國(guó)內(nèi)藝術(shù)和工業(yè)設(shè)計(jì)比賽,并獲獎(jiǎng)。從小酷愛繪畫,理想是開一個(gè)屬于自己的畫室。
第1章大數(shù)據(jù)產(chǎn)業(yè)1
1.1大數(shù)據(jù)產(chǎn)業(yè)現(xiàn)狀1
1.2對(duì)大數(shù)據(jù)產(chǎn)業(yè)的理解2
1.3大數(shù)據(jù)人才3
1.3.1供需失衡3
1.3.2人才方向3
1.3.3環(huán)節(jié)和工具5
1.3.4門檻障礙6
1.4小結(jié)8
第2章步入數(shù)據(jù)之門9
2.1什么是數(shù)據(jù)9
2.2什么是信息10
2.3什么是算法12
2.4統(tǒng)計(jì)、概率和數(shù)據(jù)挖掘13
2.5什么是商業(yè)智能13
2.6小結(jié)14
第3章排列組合與古典概型15
3.1排列組合的概念16
3.1.1公平的決斷——扔硬幣16
3.1.2非古典概型17
3.2排列組合的應(yīng)用示例18
3.2.1雙色球彩票18
3.2.2購車搖號(hào)20
3.2.3德州撲克21
3.3小結(jié)25
第4章統(tǒng)計(jì)與分布27
4.1加和值、平均值和標(biāo)準(zhǔn)差27
4.1.1加和值28
4.1.2平均值29
4.1.3標(biāo)準(zhǔn)差30
4.2加權(quán)均值32
4.2.1混合物定價(jià)32
4.2.2決策權(quán)衡34
4.3眾數(shù)、中位數(shù)35
4.3.1眾數(shù)36
4.3.2中位數(shù)37
4.4歐氏距離37
4.5曼哈頓距離39
4.6同比和環(huán)比41
4.7抽樣43
4.8高斯分布45
4.9泊松分布49
4.10伯努利分布52
4.11小結(jié)54
第5章指標(biāo)55
5.1什么是指標(biāo)55
5.2指標(biāo)化運(yùn)營(yíng)58
5.2.1指標(biāo)的選擇58
5.2.2指標(biāo)體系的構(gòu)建62
5.3小結(jié)63
第6章信息論64
6.1信息的定義64
6.2信息量65
6.2.1信息量的計(jì)算65
6.2.2信息量的理解66
6.3香農(nóng)公式68
6.4熵70
6.4.1熱力熵70
6.4.2信息熵72
6.5小結(jié)75
第7章多維向量空間76
7.1向量和維度76
7.1.1信息冗余77
7.1.2維度79
7.2矩陣和矩陣計(jì)算80
7.3數(shù)據(jù)立方體83
7.4上卷和下鉆85
7.5小結(jié)86
第8章回歸87
8.1線性回歸87
8.2擬合88
8.3殘差分析94
8.4過擬合99
8.5欠擬合100
8.6曲線擬合轉(zhuǎn)化為線性擬合101
8.7小結(jié)104
第9章聚類105
9.1K-Means算法106
9.2有趣模式109
9.3孤立點(diǎn)110
9.4層次聚類110
9.5密度聚類113
9.6聚類評(píng)估116
9.6.1聚類趨勢(shì)117
9.6.2簇?cái)?shù)確定119
9.6.3測(cè)定聚類質(zhì)量121
9.7小結(jié)124
第10章分類125
10.1樸素貝葉斯126
10.1.1天氣的預(yù)測(cè)128
10.1.2疾病的預(yù)測(cè)130
10.1.3小結(jié)132
10.2決策樹歸納133
10.2.1樣本收集135
10.2.2信息增益136
10.2.3連續(xù)型變量137
10.3隨機(jī)森林140
10.4隱馬爾可夫模型141
10.4.1維特比算法144
10.4.2前向算法151
10.5支持向量機(jī)SVM154
10.5.1年齡和好壞154
10.5.2“下刀”不容易157
10.5.3距離有多遠(yuǎn)158
10.5.4N維度空間中的距離159
10.5.5超平面怎么畫160
10.5.6分不開怎么辦160
10.5.7示例163
10.5.8小結(jié)164
10.6遺傳算法164
10.6.1進(jìn)化過程164
10.6.2算法過程165
10.6.3背包問題165
10.6.4極大值問題173
10.7小結(jié)181
第11章關(guān)聯(lián)分析183
11.1頻繁模式和Apriori算法184
11.1.1頻繁模式184
11.1.2支持度和置信度185
11.1.3經(jīng)典的Apriori算法187
11.1.4求出所有頻繁模式190
11.2關(guān)聯(lián)分析與相關(guān)性分析192
11.3稀有模式和負(fù)模式193
11.4小結(jié)194
第12章用戶畫像195
12.1標(biāo)簽195
12.2畫像的方法196
12.2.1結(jié)構(gòu)化標(biāo)簽196
12.2.2非結(jié)構(gòu)化標(biāo)簽198
12.3利用用戶畫像203
12.3.1割裂型用戶畫像203
12.3.2緊密型用戶畫像204
12.3.3到底“像不像”204
12.4小結(jié)205
第13章推薦算法206
13.1推薦思路206
13.1.1貝葉斯分類206
13.1.2利用搜索記錄207
13.2User-basedCF209
13.3Item-basedCF211
13.4優(yōu)化問題215
13.5小結(jié)217
第14章文本挖掘218
14.1文本挖掘的領(lǐng)域218
14.2文本分類219
14.2.1Rocchio算法220
14.2.2樸素貝葉斯算法223
14.2.3K-近鄰算法225
14.2.4支持向量機(jī)SVM算法226
14.3小結(jié)227
第15章人工神經(jīng)網(wǎng)絡(luò)228
15.1人的神經(jīng)網(wǎng)絡(luò)228
15.1.1神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)229
15.1.2結(jié)構(gòu)模擬230
15.1.3訓(xùn)練與工作231
15.2FANN庫簡(jiǎn)介233
15.3常見的神經(jīng)網(wǎng)絡(luò)235
15.4BP神經(jīng)網(wǎng)絡(luò)235
15.4.1結(jié)構(gòu)和原理236
15.4.2訓(xùn)練過程237
15.4.3過程解釋240
15.4.4示例240
15.5玻爾茲曼機(jī)244
15.5.1退火模型244
15.5.2玻爾茲曼機(jī)245
15.6卷積神經(jīng)網(wǎng)絡(luò)247
15.6.1卷積248
15.6.2圖像識(shí)別249
15.7深度學(xué)習(xí)255
15.8小結(jié)256
第16章大數(shù)據(jù)框架簡(jiǎn)介257
16.1著名的大數(shù)據(jù)框架257
16.2Hadoop框架258
16.2.1MapReduce原理259
16.2.2安裝Hadoop261
16.2.3經(jīng)典的WordCount264
16.3Spark框架269
16.3.1安裝Spark270
16.3.2使用Scala計(jì)算WordCount271
16.4分布式列存儲(chǔ)框架272
16.5PrestoDB——神奇的CLI273
16.5.1Presto為什么那么快273
16.5.2安裝Presto274
16.6小結(jié)277
第17章系統(tǒng)架構(gòu)和調(diào)優(yōu)278
17.1速度——資源的配置278
17.1.1思路一:邏輯層面的優(yōu)化279
17.1.2思路二:容器層面的優(yōu)化279
17.1.3思路三:存儲(chǔ)結(jié)構(gòu)層面的優(yōu)化280
17.1.4思路四:環(huán)節(jié)層面的優(yōu)化280
17.1.5資源不足281
17.2穩(wěn)定——資源的可用282
17.2.1借助云服務(wù)282
17.2.2鎖分散282
17.2.3排隊(duì)283
17.2.4謹(jǐn)防“雪崩”283
17.3小結(jié)285
第18章數(shù)據(jù)解讀與數(shù)據(jù)的價(jià)值286
18.1運(yùn)營(yíng)指標(biāo)286
18.1.1互聯(lián)網(wǎng)類型公司常用指標(biāo)287
18.1.2注意事項(xiàng)288
18.2AB測(cè)試289
18.2.1網(wǎng)頁測(cè)試290
18.2.2方案測(cè)試290
18.2.3灰度發(fā)布292
18.2.4注意事項(xiàng)293
18.3數(shù)據(jù)可視化295
18.3.1圖表295
18.3.2表格299
18.4多維度——大數(shù)據(jù)的靈魂299
18.4.1多大算大299
18.4.2大數(shù)據(jù)網(wǎng)絡(luò)300
18.4.3去中心化才能活躍301
18.4.4數(shù)據(jù)會(huì)過剩嗎302
18.5數(shù)據(jù)變現(xiàn)的場(chǎng)景303
18.5.1數(shù)據(jù)價(jià)值的衡量的討論303
18.5.2場(chǎng)景1:征信數(shù)據(jù)307
18.5.3場(chǎng)景2:宏觀數(shù)據(jù)308
18.5.4場(chǎng)景3:畫像數(shù)據(jù)309
18.6小結(jié)310
附錄AVMwareWorkstation的安裝311
附錄BCentOS虛擬機(jī)的安裝方法314
附錄CPython語言簡(jiǎn)介318
附錄DScikit-learn庫簡(jiǎn)介323
附錄EFANNforPython安裝324
附錄F群眾眼中的大數(shù)據(jù)325
寫作花絮327
參考文獻(xiàn)329