大數(shù)據(jù)技術(shù)與應(yīng)用導(dǎo)論
定 價(jià):24.8 元
叢書名:普通高等教育人工智能與大數(shù)據(jù)系列教材
- 作者:李建敦
- 出版時(shí)間:2021/9/1
- ISBN:9787111687375
- 出 版 社:機(jī)械工業(yè)出版社
- 中圖法分類:TP274
- 頁碼:
- 紙張:膠版紙
- 版次:
- 開本:16開
本著以小見大、實(shí)踐為先的理念,在工業(yè)大數(shù)據(jù)的背景下,本書闡述了數(shù)據(jù)的前世今生與內(nèi)涵、外延,深入淺出地梳理了數(shù)據(jù)處理的各個(gè)階段及典型框架,內(nèi)容包括大數(shù)據(jù)采集、大數(shù)據(jù)預(yù)處理、大數(shù)據(jù)存儲(chǔ)、大數(shù)據(jù)分析與可視化等,同時(shí)還介紹了大數(shù)據(jù)技術(shù)的典型應(yīng)用。
本書注重學(xué)科基礎(chǔ)上的知識(shí)體系與實(shí)踐能力,適合作為數(shù)據(jù)科學(xué)相關(guān)專業(yè)學(xué)生的導(dǎo)論教材,也可作為信息類其他專業(yè)學(xué)生的通識(shí)教材,以培養(yǎng)學(xué)生的數(shù)據(jù)思維意識(shí)。
大數(shù)據(jù)科學(xué)是信息浪潮,是科學(xué)范式,更是發(fā)展機(jī)遇。正如摩爾定律,信息領(lǐng)域的發(fā)展同樣具有周期性,前IBM首席執(zhí)行官郭士納認(rèn)為是15年。如果說以信息處理重大突破為標(biāo)志的個(gè)人計(jì)算機(jī)的誕生與發(fā)展是信息化的首次浪潮,以信息共通共享為標(biāo)志的互聯(lián)網(wǎng)的發(fā)明與應(yīng)用是第二次浪潮,那么以信息爆炸與智能利用為標(biāo)志的大數(shù)據(jù)就是信息化的第三次浪潮。圖靈獎(jiǎng)獲得者吉姆?格雷(Jim Gray)甚至強(qiáng)調(diào),大數(shù)據(jù)是繼實(shí)驗(yàn)、理論、計(jì)算后的科學(xué)第四范式?v觀全球,重視大數(shù)據(jù)、利用大數(shù)據(jù)已經(jīng)得到全球大多數(shù)國家的認(rèn)同,在各行各業(yè)都涌現(xiàn)出了一批又一批成功案例,我們沒有理由不抓住這個(gè)發(fā)展良機(jī),以促進(jìn)富民強(qiáng)國。在數(shù)據(jù)蠻荒的當(dāng)下,無論是人才、技術(shù)還是應(yīng)用,與發(fā)達(dá)國家相比,我們都未處于明顯劣勢,更應(yīng)擼起袖子、甩開膀子、邁開步子以助力民族復(fù)興。
大數(shù)據(jù)專業(yè)人才是發(fā)展數(shù)據(jù)科學(xué)的要素。作為前沿科學(xué),特別是能夠改善各個(gè)行業(yè)面貌的交叉科學(xué),大數(shù)據(jù)人才稀缺的狀況在全球都非常普遍,尤其是互聯(lián)網(wǎng)企業(yè)占有相當(dāng)比重的我國。預(yù)測顯示,2025年前我國大數(shù)據(jù)人才缺口將達(dá)到200萬。其中,具有豐富操作經(jīng)驗(yàn)的應(yīng)用技術(shù)型人才,特別是非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)處理類人才的空缺,將逐年激增。為了有效應(yīng)對(duì),截至2020年3月,經(jīng)教育部批準(zhǔn),486所本科院校開設(shè)了數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè),而如何辦好這個(gè)新型專業(yè)也是我們面臨的挑戰(zhàn)。面對(duì)挑戰(zhàn)希望本書能夠引導(dǎo)學(xué)生、激勵(lì)學(xué)生步入大數(shù)據(jù)殿堂,感受第四范式之美。
大數(shù)據(jù)專業(yè)人才的培養(yǎng)不能搞大而全,要精準(zhǔn)定位。當(dāng)前,在開源社區(qū)的推動(dòng)下,大到數(shù)據(jù)生態(tài)小到處理方法,如何利用大數(shù)據(jù)以指導(dǎo)實(shí)踐早已不再是秘密。然而,由于行業(yè)的特殊性,如何設(shè)計(jì)與實(shí)現(xiàn)符合業(yè)務(wù)要求的大數(shù)據(jù)方案,卻沒有公式。同時(shí),由于數(shù)據(jù)科學(xué)的內(nèi)在挑戰(zhàn)及其當(dāng)前的發(fā)展現(xiàn)狀,在四年內(nèi)培養(yǎng)全面的大數(shù)據(jù)專業(yè)人才并不現(xiàn)實(shí),而整齊劃一地向數(shù)據(jù)科學(xué)家高地沖鋒更會(huì)造成嚴(yán)重的人才失衡。本書面向工業(yè)大數(shù)據(jù),在全面闡述大數(shù)據(jù)生命周期及治理方案的同時(shí),期望能為該領(lǐng)域大數(shù)據(jù)人才的特色培養(yǎng)提供一定參考。
本書第1章闡述大數(shù)據(jù)的基本概念及其處理框架,第2章介紹大數(shù)據(jù)學(xué)科及其專業(yè)人才培養(yǎng)體系,第3章概述Hadoop、Spark與Storm等處理框架,第4章詳述大數(shù)據(jù)采集與預(yù)處理技術(shù),第5章介紹大數(shù)據(jù)存儲(chǔ)技術(shù),第6章深入闡述多種大數(shù)據(jù)分析方法,第7章關(guān)注大數(shù)據(jù)可視化,第8章展示大數(shù)據(jù)的兩個(gè)典型應(yīng)用。其中第1章由肖薇編寫,第2章由余翔編寫,第3、8章由李建敦編寫,第4章由覃海煥編寫,第5章由李宇佳編寫,第6章由呂品編寫,第7章由汪鑫編寫。本書由李建敦負(fù)責(zé)統(tǒng)稿,由計(jì)春雷主審。
由于作者學(xué)識(shí)有限,書中難免存在不足之處,敬請諸位專家與廣大讀者批評(píng)指正。
作 者
目 錄
前 言
第1章 認(rèn)識(shí)大數(shù)據(jù) 1
1.1 信息爆炸 1
1.1.1 大數(shù)據(jù)時(shí)代 1
1.1.2 數(shù)據(jù)、信息與知識(shí) 2
1.1.3 數(shù)據(jù)的來源 3
1.2 大數(shù)據(jù)的概念與特征 4
1.2.1 大數(shù)據(jù)的概念 4
1.2.2 大數(shù)據(jù)的特征 4
1.2.3 大數(shù)據(jù)的類型 5
1.3 大數(shù)據(jù)的技術(shù)架構(gòu)及處理技術(shù) 6
1.3.1 大數(shù)據(jù)的技術(shù)架構(gòu) 6
1.3.2 大數(shù)據(jù)的處理技術(shù) 7
1.4 大數(shù)據(jù)處理的集成平臺(tái) 7
1.5 工業(yè)大數(shù)據(jù) 8
1.5.1 工業(yè)大數(shù)據(jù)及其特征 8
1.5.2 工業(yè)大數(shù)據(jù)技術(shù)及應(yīng)用 9
1.5.3 工業(yè)大數(shù)據(jù)面臨的挑戰(zhàn) 10
本章小結(jié) 12
閱讀材料:啤酒與尿布 12
習(xí)題 12
第2章 大數(shù)據(jù)學(xué)科與職業(yè) 13
2.1 大數(shù)據(jù)學(xué)科 13
2.2 大數(shù)據(jù)專業(yè)人才培養(yǎng)方案 14
2.3 大數(shù)據(jù)職業(yè)道德 16
本章小結(jié) 18
閱讀材料:道格 切特 18
習(xí)題 19
第3章 大數(shù)據(jù)生態(tài)系統(tǒng) 20
3.1 大數(shù)據(jù)生態(tài)系統(tǒng)概述 20
3.2 并行與分布式處理 21
3.2.1 并行處理 21
3.2.2 分布式處理 22
3.3 Hadoop 22
3.3.1 Hadoop概述 22
3.3.2 Hadoop生態(tài)圈 25
3.4 Spark 25
3.4.1 Spark概述 25
3.4.2 Spark生態(tài)圈 26
3.5 Storm 26
3.5.1 Storm概述 27
3.5.2 Storm集群架構(gòu)與工作流程 27
本章小結(jié) 28
閱讀材料:南森 馬茨 28
習(xí)題 29
第4章 大數(shù)據(jù)采集與預(yù)處理 30
4.1 大數(shù)據(jù)采集與預(yù)處理概述 30
4.1.1 大數(shù)據(jù)采集技術(shù) 30
4.1.2 大數(shù)據(jù)預(yù)處理技術(shù) 32
4.2 大數(shù)據(jù)采集方法及工具 33
4.2.1 網(wǎng)絡(luò)數(shù)據(jù)采集方法 33
4.2.2 系統(tǒng)日志采集方法 36
4.2.3 科研數(shù)據(jù)采集方法 40
4.2.4 關(guān)系型數(shù)據(jù)庫數(shù)據(jù)采集方法 42
4.3 大數(shù)據(jù)預(yù)處理方法及工具 43
4.3.1 數(shù)據(jù)清洗 43
4.3.2 數(shù)據(jù)集成 45
4.3.3 數(shù)據(jù)歸約 46
4.3.4 數(shù)據(jù)變換 49
本章小結(jié) 53
閱讀材料:園中有金 53
習(xí)題 53
第5章 大數(shù)據(jù)存儲(chǔ) 54
5.1 集中式存儲(chǔ)與分布式存儲(chǔ) 54
5.2 非結(jié)構(gòu)化數(shù)據(jù)庫 55
5.2.1 NewSQL 56
5.2.2 云數(shù)據(jù)庫 56
5.2.3 HBase 57
5.2.4 MongoDB 58
5.3 數(shù)據(jù)倉庫與OLAP 59
5.3.1 概述 59
5.3.2 基本架構(gòu) 60
5.3.3 典型應(yīng)用 62
本章小結(jié) 62
閱讀材料:盤古系統(tǒng) 63
習(xí)題 63
第6章 大數(shù)據(jù)分析 64
6.1 大數(shù)據(jù)分析與商業(yè)智能 64
6.1.1 大數(shù)據(jù)與大數(shù)據(jù)分析 65
6.1.2 大數(shù)據(jù)分析的種類 66
6.2 大數(shù)據(jù)統(tǒng)計(jì)分析 67
6.2.1 分類問題 68
6.2.2 回歸問題 72
6.2.3 聚類問題 74
6.2.4 人工神經(jīng)網(wǎng)絡(luò) 75
6.2.5 數(shù)據(jù)建模 80
6.3 大數(shù)據(jù)分析的應(yīng)用與挑戰(zhàn) 80
6.3.1 Web挖掘 81
6.3.2 文本挖掘 84
6.3.3 社會(huì)網(wǎng)絡(luò)分析 87
6.3.4 智能制造中的數(shù)據(jù)分析 89
本章小結(jié) 89
閱讀材料:貝葉斯 89
習(xí)題 90
第7章 大數(shù)據(jù)可視化 91
7.1 數(shù)據(jù)可視化概述 91
7.1.1 數(shù)據(jù)可視化的特點(diǎn) 91
7.1.2 數(shù)據(jù)可視化的典型應(yīng)用 92
7.2 數(shù)據(jù)可視化的常用工具 92
7.2.1 Tableau 92
7.2.2 Matplotlib 93
7.2.3 ECharts 94
本章小結(jié) 95
閱讀材料:馬克 扎克伯格 95
習(xí)題 96
第8章 大數(shù)據(jù)技術(shù)的典型應(yīng)用 97
8.1 案例一:大型工業(yè)設(shè)備實(shí)時(shí)監(jiān)
測系統(tǒng) 97
8.1.1 集群部署與配置 97
8.1.2 數(shù)據(jù)表結(jié)構(gòu) 101
8.2 案例二:基于MapReduce的
薪資核算 102
參考文獻(xiàn) 107