定 價:39.8 元
叢書名: 21世紀高等院校云計算和大數(shù)據(jù)人才培養(yǎng)規(guī)劃教材
- 作者:陳志德 曾燕清 李翔宇
- 出版時間:2017/1/1
- ISBN:9787115443472
- 出 版 社:人民郵電出版社
- 中圖法分類:TP274
- 頁碼:212
- 紙張:膠版紙
- 版次:1
- 開本:16K
本書在介紹大數(shù)據(jù)發(fā)展背景、特點及主要技術層面的基礎上,對大數(shù)據(jù)的數(shù)據(jù)采集、數(shù)據(jù)存儲、常見計算模式和典型系統(tǒng)工具進行了分析介紹。本書同時對各種典型系統(tǒng)工具進行了講解,包括大數(shù)據(jù)查詢分析計算及典型工具(HBase、Hive)、批處理計算及典型工具(MapReduce、Spark)、流式計算及典型工具(Storm、Apex、Flink)、事件流及典型工具(Druid)等。
本書提供了大量的實例和源代碼供讀者參考,指導讀者快速、無障礙地了解和掌握常見大數(shù)據(jù)分析工具的使用。本書適合作為計算機及相關專業(yè)的教學用書,也可以作為大數(shù)據(jù)初學者的自學教材和參考手冊。
1.內(nèi)容豐富多樣,對比學習
考慮當前大數(shù)據(jù)發(fā)展處于起步并逐步趕超先進,其應用領域豐富廣泛,本書除了介紹典型開源大數(shù)據(jù)處理框架Apache Hadoop框架之外,還介紹了批處理計算Spark、流式計算及典型工具(Storm、Apex、Flink)和事件流及典型工具(Druid)等,讓讀者了解不同類型工具系統(tǒng)的特點,并配以豐富簡單易上手的實例,讓讀者能夠切實體會和掌握各種類型工具的特點和應用。
2.輕量級理論,重在培養(yǎng)動手實踐能力
為了讓讀者能夠快速掌握技能并保證理論能夠適應實踐要求,本書本著輕量級理論原則,給出豐富的實例、詳實的實驗操作步驟和使用普通讀者也易于配置的實驗環(huán)境,讓讀者能夠快速上手,在做中學。
3.有效結合實際應用
除了各章節(jié)給出的配套實例外,本書在最后還給出電商領域的大數(shù)據(jù)分析綜合實例,以實際行業(yè)應用案例說明大數(shù)據(jù)處理和計算工具的使用以及進一步闡述大數(shù)據(jù)行業(yè)應用的重大意義。
陳志德,2005年至今在福建師范大學數(shù)學與計算機科學學院工作,任計算機系副主任。主要研究方向包括網(wǎng)絡與信息安全、物聯(lián)網(wǎng)與移動計算等,指導碩士研究生20多人,指導研究生的學位論文曾獲校優(yōu)秀碩士論文一等獎。近年來主持福建省自然科學基金、福建省科技廳K類基金等項目10項,參與國家自然科學基金和省科技廳高校產(chǎn)學合作科技重大項目課題各1項。出版學術專著2本,教材1本。在Journal of Computer and System Sciences、Concurrency and Computation: Practice and Experience等期刊發(fā)表學術論文40多篇,申請專利10多項,軟件著作權10多項。擔任CTCIS和NSS等國內(nèi)和國際學術會議的程序委員會委員。
第1章 大數(shù)據(jù)概述 1
1.1 大數(shù)據(jù)的發(fā)展 1
1.2 大數(shù)據(jù)的概念及特征 2
1.2.1 大數(shù)據(jù)的概念 2
1.2.2 大數(shù)據(jù)的特征 2
1.3 大數(shù)據(jù)的產(chǎn)生及數(shù)據(jù)類型 3
1.3.1 大數(shù)據(jù)的產(chǎn)生 3
1.3.2 數(shù)據(jù)類型 3
1.4 大數(shù)據(jù)計算模式和系統(tǒng) 4
1.5 大數(shù)據(jù)的主要技術層面和技術內(nèi)容 4
1.6 大數(shù)據(jù)的典型應用 6
1.7 本章小結 7
第2章 數(shù)據(jù)獲取 8
2.1 Scrapy環(huán)境搭建 8
2.2 爬蟲項目創(chuàng)建 8
2.3 采集目標數(shù)據(jù)項定義 10
2.4 爬蟲核心實現(xiàn) 11
2.5 數(shù)據(jù)存儲 15
2.6 爬蟲運行 17
2.7 本章小結 18
第3章 Hadoop基礎 19
3.1 Hadoop概述 19
3.2 Hadoop原理 20
3.2.1 Hadoop HDFS原理 20
3.2.2 Hadoop MapReduce原理 21
3.2.3 Hadoop YARN原理 22
3.3 Hadoop的安裝與配置 24
3.4 Hadoop生態(tài)系統(tǒng)簡介 46
3.5 本章小結 47
第4章 HDFS基本應用 48
4.1 實戰(zhàn)命令行接口 48
4.2 實戰(zhàn)Java接口 52
4.3 數(shù)據(jù)流 60
4.3.1 數(shù)據(jù)流簡介 60
4.3.2 數(shù)據(jù)流讀取 61
4.3.3 數(shù)據(jù)流寫入 62
4.4 本章小結 64
第5章 MapReduce應用開發(fā) 65
5.1 配置Hadoop MapReduce開發(fā)環(huán)境 65
5.1.1 系統(tǒng)環(huán)境及所需文件 65
5.1.2 安裝Eclipse 65
5.1.3 向Eclipse中添加插件 66
5.2 編寫和運行第一個MapReduce程序前的準備 69
5.2.1 系統(tǒng)環(huán)境及所需要的文件 69
5.2.2 建立運行MapReduce程序的依賴環(huán)境 69
5.2.3 建立編寫MapReduce程序的依賴包 70
5.3 MapReduce應用案例 78
5.3.1 單詞計數(shù) 78
5.3.2 數(shù)據(jù)去重 82
5.3.3 排序 85
5.3.4 單表關聯(lián) 89
5.3.5 多表關聯(lián) 95
5.4 本章小結 102
第6章 分布式數(shù)據(jù)庫HBase 103
6.1 HBase簡介 103
6.2 HBase接口 103
6.3 安裝HBase集群 104
6.3.1 系統(tǒng)環(huán)境 104
6.3.2 安裝ZooKeeper 104
6.3.3 安裝HBase 106
6.4 HBase Shell 108
6.5 HBase API 110
6.6 HBase綜合實例 113
6.7 本章小結 118
第7章 數(shù)據(jù)倉庫工具Hive 119
7.1 Hive簡介 119
7.2 Hive接口實戰(zhàn) 119
7.3 Hive復雜語句實戰(zhàn) 124
7.4 Hive綜合實例 127
7.4.1 準備數(shù)據(jù) 127
7.4.2 在Hive上創(chuàng)建數(shù)據(jù)庫和表 128
7.4.3 導入數(shù)據(jù) 129
7.4.4 算法分析與執(zhí)行HQL語句 130
7.4.5 運行結果分析 131
7.5 本章小結 132
第8章 開源集群計算環(huán)境Spark 133
8.1 Spark簡介 133
8.2 Spark接口實戰(zhàn) 133
8.2.1 環(huán)境要求 133
8.2.2 IDEA使用和打包 134
8.3 Spark編程的RDD 137
8.3.1 RDD 137
8.3.2 創(chuàng)建RDD 138
8.3.3 RDD中與Map和Reduce相關的API 138
8.4 Spark實戰(zhàn)案例——統(tǒng)計1000萬人口的平均年齡 141
8.4.1 案例描述 141
8.4.2 案例分析 143
8.4.3 編程實現(xiàn) 143
8.4.4 提交到集群運行 144
8.4.5 監(jiān)控執(zhí)行狀態(tài) 144
8.5 Spark MLlib實戰(zhàn)——聚類實戰(zhàn) 145
8.5.1 算法說明 145
8.5.2 實例介紹 145
8.5.3 測試數(shù)據(jù)說明 146
8.5.4 程序源碼 146
8.5.5 運行腳本 148
8.6 本章小結 150
第9章 流實時處理系統(tǒng)Storm 152
9.1 Storm概述 152
9.1.1 Storm簡介 152
9.1.2 Storm主要特點 152
9.2 Storm安裝與配置 153
9.3 本章小結 160
第10章 企業(yè)級、大數(shù)據(jù)流處理 Apex 161
10.1 Apache Apex簡介 161
10.2 Apache Apex開發(fā)環(huán)境配置 161
10.2.1 部署開發(fā)工具 161
10.2.2 安裝Apex組件 162
10.2.3 創(chuàng)建Top N Words應用 164
10.3 運行TopN Words應用 166
10.3.1 開啟Apex客戶端 166
10.3.2 執(zhí)行 166
10.4 本章小結 167
第11章 事件流OLAP之Druid 168
11.1 Druid簡介 168
11.2 Druid應用場所 168
11.3 Druid集群 169
11.4 Druid單機環(huán)境 170
11.4.1 安裝Druid 170
11.4.2 安裝ZooKeeper 170
11.4.3 啟動Druid服務 171
11.4.4 批量加載數(shù)據(jù) 172
11.4.5 加載流數(shù)據(jù) 175
11.4.6 數(shù)據(jù)查詢 177
11.5 本章小結 180
第12章 事件數(shù)據(jù)流引擎Flink 181
12.1 Flink概述 181
12.2 Flink基本架構 181
12.3 單機安裝Flink 182
12.4 Flink運行第一個例子 184
12.5 Flink集群部署 187
12.5.1 環(huán)境準備 187
12.5.2 安裝和配置 187
12.5.3 啟動Flink集群 188
12.5.4 集群中添加JobManager/TaskManager 189
12.6 本章小結 189
第13章 分布式文件搜索 Elasticsearch 190
13.1 Elasticsearch簡介 190
13.2 Elasticsearch單節(jié)點安裝 192
13.3 插件Elasticsearch-head安裝 193
13.4 Elasticsearch的基本操作 195
13.5 綜合實戰(zhàn) 199
13.6 本章小結 202
第14章 實例電商數(shù)據(jù)分析 203
14.1 背景與挖掘目標 203
14.2 分析方法與過程 203
14.2.1 數(shù)據(jù)收集 203
14.2.2 數(shù)據(jù)預處理 206
14.2.3 導入數(shù)據(jù)到Hadoop 206
14.2.4 數(shù)據(jù)取樣分析 209
14.3 本章小結 211
參考文獻 212