本書以大數(shù)據(jù)處理技術涉及的主要流程為主線,深入淺出地介紹大數(shù)據(jù)相關的基礎知識。本書條理清晰、重點突出,內(nèi)容循序漸進、難易得當。全書共7章,內(nèi)容包括大數(shù)據(jù)概述,大數(shù)據(jù)采集,大數(shù)據(jù)存儲與管理,大數(shù)據(jù)分析,數(shù)據(jù)可視化,數(shù)據(jù)安全、隱私保護與開放共享,以及大數(shù)據(jù)技術應用實例。本書還設置了實訓和課后習題,通過練習和操作實踐,幫助讀者鞏固所學的內(nèi)容。
介紹城市管理、金融領域、互聯(lián)網(wǎng)領域、零售行業(yè)方面的多個項目案例,覆蓋面廣,案例豐富
圍繞大數(shù)據(jù)技術流程次第展開,層次分明,著重于解決問題的思路啟發(fā)與解決方案的實施
以實例引入的方式引出技術內(nèi)容,通俗易懂,新穎獨特
融入了思政元素
林濤,上海應用技術大學副教授,主要研究方向為人工智能與物聯(lián)網(wǎng),從事機器視覺和智能感知相關的研究,曾參與華為手機芯片研發(fā),主持開發(fā)了基于無線互聯(lián)網(wǎng)的冷鏈疫苗監(jiān)控系統(tǒng),無人機智能故障檢測系統(tǒng)等,合作參與了自動駕駛相關的若干項目。教授《人工智能導論》,《人工神經(jīng)網(wǎng)絡》,《深度學習及其應用》等課程。發(fā)表多篇SCI論文《Structured deep learning based object-specific distance estimation from a monocular image》,《Multi-state Feature Optimization of Sign Glosses for Continuous Sign Language Recognition》
張良均,資深大數(shù)據(jù)專家,廣東泰迪智能科技股份有限公司董事長,國家科技部入庫技術專家,教育部全國專業(yè)學位水平評估專家,工信部教育與考試中心入庫專家,中國工業(yè)與應用數(shù)學學會理事,廣東省工業(yè)與應用數(shù)學學會副理事長,廣東省高等職業(yè)教育教學指導委員會委員,華南師范大學、中南財經(jīng)政法大學等40余所高校校外碩導或兼職教授,泰迪杯全國數(shù)據(jù)挖掘挑戰(zhàn)賽發(fā)起人。曾在國內(nèi)外重要學術刊物上發(fā)表學術論文10余篇,主導編寫圖書專著60余部,其中獲普通高等教育“十一五”規(guī)劃教材一部,“十三五”職業(yè)教育國家規(guī)劃教材一部;參與標準建設4項,主持國家級課題1項、省部級課題4項。獲得SAS、SPSS數(shù)據(jù)挖掘認證及Hadoop開發(fā)工程師證書,具有信訪、電力、電信、銀行、制造企業(yè)、電子商務和電子政務的項目經(jīng)驗和行業(yè)背景,并榮獲中國產(chǎn)學研合作促進獎、中國南方電網(wǎng)公司發(fā)明專利一等獎、廣東省農(nóng)業(yè)技術推廣二等獎、廣州市荔灣區(qū)科學技術進步獎。
第 1章 大數(shù)據(jù)概述 1
1.1 實例引入:三次信息化浪潮迎來大數(shù)據(jù)時代 1
1.1.1 信息時代數(shù)據(jù)爆炸 2
1.1.2 三次信息化浪潮 2
1.1.3 大數(shù)據(jù)的發(fā)展 3
1.1.4 大數(shù)據(jù)帶來思維模式的改變 4
1.1.5 大數(shù)據(jù)的特點 5
1.2 大數(shù)據(jù)產(chǎn)業(yè)發(fā)展概況 6
1.2.1 大數(shù)據(jù)產(chǎn)業(yè)發(fā)展現(xiàn)狀與市場規(guī)!7
1.2.2 大數(shù)據(jù)產(chǎn)業(yè)應用領域及其應用價值 8
1.2.3 大數(shù)據(jù)市場產(chǎn)業(yè)鏈 9
1.3 大數(shù)據(jù)技術體系 9
1.3.1 數(shù)據(jù)接入 10
1.3.2 數(shù)據(jù)預處理 10
1.3.3 數(shù)據(jù)存儲 10
1.3.4 數(shù)據(jù)處理 10
1.3.5 數(shù)據(jù)可視化 11
1.3.6 數(shù)據(jù)治理 11
1.3.7 安全與隱私保護 11
1.4 大數(shù)據(jù)相關崗位需求 11
小結 12
課后習題 12
第 2章 大數(shù)據(jù)采集 15
2.1 實例引入:在線旅行社的用戶訪問行為數(shù)據(jù)采集 15
2.1.1 用戶訪問行為數(shù)據(jù)分析的價值 16
2.1.2 用戶訪問行為數(shù)據(jù)采集方案的設計 17
2.2 大數(shù)據(jù)采集技術 20
2.2.1 了解大數(shù)據(jù)采集 20
2.2.2 大數(shù)據(jù)采集的數(shù)據(jù)來源 22
2.2.3 基于數(shù)據(jù)倉庫的數(shù)據(jù)批量采集 23
2.2.4 系統(tǒng)日志數(shù)據(jù)采集 25
2.2.5 網(wǎng)絡數(shù)據(jù)實時采集 28
2.3 主流的大數(shù)據(jù)采集框架 32
2.3.1 Flume 32
2.3.2 Sqoop 34
小結 37
實訓 37
實訓1 Flume的安裝和配置 37
實訓2 Sqoop的安裝和配置 38
課后習題 39
第3章 大數(shù)據(jù)存儲與管理 41
3.1 實例引入:從平安城市建設看海量數(shù)據(jù)存儲 41
3.1.1 平安城市建設中的視頻監(jiān)控系統(tǒng) 42
3.1.2 平安城市視頻監(jiān)控數(shù)據(jù)的存儲技術方案 42
3.2 傳統(tǒng)的數(shù)據(jù)存儲技術 44
3.2.1 了解數(shù)據(jù)存儲 45
3.2.2 數(shù)據(jù)存儲的數(shù)據(jù)類型 46
3.2.3 文件系統(tǒng) 47
3.2.4 關系數(shù)據(jù)庫 48
3.2.5 數(shù)據(jù)倉庫 48
3.2.6 并行數(shù)據(jù)庫 48
3.3 大數(shù)據(jù)時代下的數(shù)據(jù)存儲技術 49
3.3.1 分布式存儲系統(tǒng) 49
3.3.2 云存儲 52
3.4 主流的分布式存儲框架 56
3.4.1 MySQL 56
3.4.2 Hive 59
3.4.3 HBase 61
3.4.4 MongoDB 64
3.4.5 Redis 67
小結 70
實訓 70
實訓1 MySQL的安裝配置 70
實訓2 Hive的安裝配置 71
實訓3 HBase的安裝配置 72
課后習題 73
第4章 大數(shù)據(jù)分析 75
4.1 實例引入:個性化用戶畫像實現(xiàn)精準營銷 75
4.1.1 大數(shù)據(jù)實現(xiàn)精準營銷 76
4.1.2 用戶畫像是什么 76
4.1.3 構建個性化用戶畫像 77
4.2 大數(shù)據(jù)分析技術 79
4.2.1 了解數(shù)據(jù)分析與數(shù)據(jù)挖掘 79
4.2.2 數(shù)據(jù)認知 80
4.2.3 數(shù)據(jù)處理 83
4.2.4 分析建!85
4.2.5 模型評估 88
4.3 主流的大數(shù)據(jù)分析處理框架 89
4.3.1 數(shù)據(jù)分析處理框架介紹 89
4.3.2 Hadoop 91
4.3.3 Spark 93
4.3.4 Flink 94
4.3.5 Storm 96
4.3.6 Graph 97
小結 98
實訓 99
實訓1 Hadoop偽分布式安裝 99
實訓2 Spark偽分布式安裝 99
實訓3 Flink的安裝配置 100
課后習題 100
第5章 數(shù)據(jù)可視化 103
5.1 實例引入:某機場數(shù)據(jù)可視化大屏 103
5.1.1 大屏顯示的應用領域和行業(yè) 104
5.1.2 機場數(shù)據(jù)可視化大屏設計 104
5.2 數(shù)據(jù)可視化圖形設計指南 105
5.2.1 了解數(shù)據(jù)可視化 105
5.2.2 數(shù)據(jù)可視化的發(fā)展方向 106
5.2.3 基礎圖表 110
5.2.4 一般的數(shù)據(jù)可視化圖形設計流程 111
5.3 數(shù)據(jù)可視化主要技術 112
5.3.1 根據(jù)可視化目標分類 113
5.3.2 根據(jù)大數(shù)據(jù)特點分類 115
5.4 主流的數(shù)據(jù)可視化工具 117
5.4.1 數(shù)據(jù)可視化類庫 118
5.4.2 BI類 120
小結 123
實訓 123
實訓1 ECharts的安裝配置 123
實訓2 FineBI的安裝配置 124
課后習題 125
第6章 數(shù)據(jù)安全、隱私保護與開放共享 128
6.1 實例引入:菜鳥平臺共享物流信息 128
6.2 數(shù)據(jù)安全與隱私 130
6.2.1 大數(shù)據(jù)安全概述 130
6.2.2 大數(shù)據(jù)安全與隱私保護技術體系架構 130
6.3 大數(shù)據(jù)安全及隱私保護關鍵技術 132
6.3.1 數(shù)據(jù)安全技術 132
6.3.2 個人隱私保護技術 135
6.4 數(shù)據(jù)開放與共享 136
6.4.1 數(shù)據(jù)開放與共享的概念 136
6.4.2 數(shù)據(jù)開放與共享的意義 137
6.4.3 數(shù)據(jù)開放與共享實施指南 137
小結 138
課后習題 138
第7章 大數(shù)據(jù)技術應用實例 141
7.1 大數(shù)據(jù)技術在城市管理中的應用 141
7.1.1 城市公交用戶出行分析 142
7.1.2 環(huán)保監(jiān)測 148
7.2 大數(shù)據(jù)技術在金融領域的應用 150
7.2.1 股票價格漲跌趨勢預測 150
7.2.2 上市公司綜合能力聚類分析 153
7.3 大數(shù)據(jù)技術在互聯(lián)網(wǎng)領域的應用 156
7.3.1 電子商務營銷 156
7.3.2 音樂推薦系統(tǒng) 157
7.4 大數(shù)據(jù)技術在零售行業(yè)的應用 160
7.4.1 購物籃分析 160
7.4.2 客戶價值分析 164
7.4.3 供應鏈管理 167
小結 170
課后習題 171
參考文獻 174