Hadoop大數(shù)據(jù)處理與分析教程(慕課版)
定 價:59.8 元
- 作者:王秀友 丁小娜 劉運(yùn)
- 出版時間:2021/2/1
- ISBN:9787115530080
- 出 版 社:人民郵電出版社
- 中圖法分類:TP274
- 頁碼:262
- 紙張:
- 版次:01
- 開本:16開
第1章緒論、第2章Linux操作系統(tǒng)的安裝、第3章Hadoop的偽分布式安裝、第4章Hadoop集群的搭建及配置、第5章Hadoop HDFS命令、第6章MapReduce編程入門、第7章Hive:SQL on Hadoop、第8章Sqoop:SQL to Hadoop、第9章HBase:HadoopDatabase、第10章Spark的介紹與安裝、第11章綜合案例——網(wǎng)絡(luò)爬蟲大數(shù)據(jù)分析
1. 慕課版教材,各章節(jié)都配備了以二維碼為載體的微課。
2. 配套資源豐富,包括課件、源代碼、題庫。
3. 教材厚度適中,難度較低,案例式教學(xué),適合應(yīng)用型本科和職業(yè)院校。
已經(jīng)在我社出版多本程序設(shè)計類書籍,包括“技術(shù)方案寶典” “開發(fā)技術(shù)大全”“自學(xué)手冊” “參考大全”等多個系列,大都取得比較好的市場反響。
第1章 緒論 1
1.1 認(rèn)識大數(shù)據(jù) 2
1.1.1 大數(shù)據(jù)的定義 2
1.1.2 大數(shù)據(jù)的特點 2
1.1.3 大數(shù)據(jù)行業(yè)應(yīng)用 3
1.1.4 Hadoop與大數(shù)據(jù) 5
1.1.5 其他大數(shù)據(jù)處理平臺 5
1.1.6 大數(shù)據(jù)人才 7
1.2 什么是Hadoop 8
1.2.1 Hadoop簡介 8
1.2.2 Hadoop的發(fā)展歷史 8
1.2.3 Hadoop的特點 9
1.3 Hadoop核心 10
1.3.1 分布式文件系統(tǒng)—HDFS 11
1.3.2 分布式計算框架—MapReduce 13
1.4 Hadoop常用組件 14
1.5 Hadoop在國內(nèi)外的應(yīng)用情況 16
小結(jié) 16
習(xí)題 16
第2章 Linux操作系統(tǒng)的安裝 17
2.1 VirtualBox虛擬機(jī)的安裝 18
2.1.1 VirtualBox的下載和安裝 18
2.1.2 設(shè)置VirtualBox存儲文件夾 22
2.1.3 在VirtualBox中創(chuàng)建虛擬機(jī) 24
2.2 Linux操作系統(tǒng)簡介 28
2.2.1 概述 28
2.2.2 特點 28
2.2.3 Linux操作系統(tǒng)的組成 29
2.2.4 Linux基本命令 31
2.2.5 Linux操作系統(tǒng)的版本 34
2.3 Linux操作系統(tǒng)(Ubuntu)的安裝 34
2.3.1 Linux操作系統(tǒng)(Ubuntu)的
下載 34
2.3.2 安裝Ubuntu 36
2.3.3 啟動Ubuntu 41
2.3.4 設(shè)置終端 42
2.3.5 設(shè)置共享剪貼板 45
2.3.6 設(shè)置共享文件夾 49
小結(jié) 52
習(xí)題 52
第3章 Hadoop的偽分布式
安裝 53
3.1 JDK的檢查與安裝 54
3.1.1 檢查是否安裝JDK 54
3.1.2 安裝JDK 54
3.2 配置SSH無密碼登錄 58
3.3 Hadoop的下載與安裝 61
3.3.1 Hadoop的安裝模式 61
3.3.2 Hadoop的下載 62
3.3.3 Hadoop的安裝 63
3.3.4 配置Hadoop前準(zhǔn)備 65
3.4 Hadoop環(huán)境配置 66
3.4.1 設(shè)置Hadoop環(huán)境變量 66
3.4.2 修改Hadoop配置文件 68
3.4.3 創(chuàng)建并格式化文件系統(tǒng) 73
3.5 啟動Hadoop 73
3.6 查看HDFS Web頁面 75
3.7 查看YARN Web頁面 76
小結(jié) 77
習(xí)題 77
第4章 Hadoop集群的搭建及
配置 78
4.1 Hadoop集群中節(jié)點角色 79
4.2 設(shè)置集群前的準(zhǔn)備工作 80
4.2.1 集群中節(jié)點的規(guī)劃 80
4.2.2 設(shè)置網(wǎng)絡(luò) 81
4.3 設(shè)置服務(wù)器 83
4.3.1 設(shè)置Master服務(wù)器 83
4.3.2 復(fù)制虛擬機(jī) 89
4.3.3 設(shè)置Slave服務(wù)器 92
4.3.4 設(shè)置Master服務(wù)器到Slave服務(wù)器的SSH無密碼登 95
4.3.5 格式化文件系統(tǒng) 96
4.4 啟動和關(guān)閉Hadoop集群 97
4.4.1 啟動和關(guān)閉Hadoop集群 97
4.4.2 驗證Hadoop集群是否啟動成功 98
4.5 查看Hadoop集群的基本信息 99
4.5.1 查看集群的HDFS信息 99
4.5.2 查看集群的YARN信息 101
4.6 在Hadoop集群中運(yùn)行程序 102
小結(jié) 103
習(xí)題 103
第5章 Hadoop HDFS命令 104
5.1 HDFS常用命令總覽 105
5.2 創(chuàng)建與查看HDFS目錄 105
5.2.1 創(chuàng)建HDFS目錄 105
5.2.2 查看HDFS目錄 106
5.3 本地計算機(jī)和HDFS之間的文件
復(fù)制 107
5.3.1 從本地計算機(jī)復(fù)制文件到
HDFS 107
5.3.2 將HDFS上的文件復(fù)制到本地
計算機(jī) 110
5.4 復(fù)制與刪除HDFS文件 112
5.5 查看HDFS文件內(nèi)容 113
小結(jié) 114
習(xí)題 114
第6章 MapReduce編程
入門 115
6.1 認(rèn)識MapReduce 116
6.1.1 MapReduce的編程思想 116
6.1.2 MapReduce的運(yùn)行環(huán)境 118
6.2 使用Eclipse創(chuàng)建MapReduce工程 122
6.2.1 下載與安裝Eclipse 122
6.2.2 配置MapReduce環(huán)境 127
6.3 第一個MapReduce程序:
WordCount 131
6.3.1 WordCount的設(shè)計思路 131
6.3.2 編寫WordCount 132
6.3.3 分析WordCount程序 140
6.3.4 運(yùn)行程序 142
小結(jié) 144
習(xí)題 144
第7章 Hive 145
7.1 Hive簡介 146
7.1.1 什么是Hive 146
7.1.2 為什么使用Hive 146
7.1.3 Hive的體系結(jié)構(gòu) 146
7.1.4 Hive與關(guān)系型數(shù)據(jù)庫的區(qū)別 147
7.2 安裝元數(shù)據(jù)庫 148
7.2.1 下載和安裝MySQL數(shù)據(jù)庫 148
7.2.2 登錄MySQL數(shù)據(jù)庫 153
7.2.3 使用MySQL數(shù)據(jù)庫 153
7.3 安裝與配置Hive 156
7.3.1 準(zhǔn)備工作 156
7.3.2 下載Hive 156
7.3.3 安裝Hive 157
7.3.4 配置Hive 158
7.3.5 啟動并驗證Hive 161
7.4 數(shù)據(jù)類型和存儲格式 162
7.4.1 基本數(shù)據(jù)類型 162
7.4.2 復(fù)雜數(shù)據(jù)類型 162
7.4.3 存儲格式 163
7.4.4 數(shù)據(jù)格式 163
7.5 Hive中的數(shù)據(jù)定義 164
7.5.1 操作數(shù)據(jù)庫 164
7.5.2 查看與創(chuàng)建數(shù)據(jù)表 166
7.5.3 Hive中其他的數(shù)據(jù)表 169
7.5.4 修改數(shù)據(jù)表 170
7.5.5 刪除數(shù)據(jù)表 171
7.6 Hive中的數(shù)據(jù)操作 171
7.6.1 加載數(shù)據(jù) 171
7.6.2 插入數(shù)據(jù) 174
7.6.3 導(dǎo)出數(shù)據(jù) 178
小結(jié) 179
習(xí)題 179
第8章 Sqoop 180
8.1 安裝并配置Sqoop 181
8.1.1 下載并安裝Sqoop 181
8.1.2 配置Sqoop 183
8.1.3 驗證Sqoop 185
8.1.4 測試Sqoop與MySQL的連接 185
8.2 Sqoop命令 186
8.3 Sqoop導(dǎo)入 188
8.3.1 使用Sqoop把MySQL數(shù)據(jù)導(dǎo)入HDFS 189
8.3.2 使用Sqoop把MySQL數(shù)據(jù)導(dǎo)入Hive 191
8.3.3 有選擇地導(dǎo)入數(shù)據(jù) 192
8.4 Sqoop導(dǎo)出 193
8.4.1 使用Sqoop將Hadoop數(shù)據(jù)導(dǎo)出到MySQL 194
8.4.2 使用Sqoop將Hive數(shù)據(jù)導(dǎo)出到MySQL 195
小結(jié) 197
習(xí)題 197
第9章 HBase 198
9.1 ZooKeeper集群的安裝與配置 199
9.1.1 ZooKeeper簡介 199
9.1.2 ZooKeeper安裝 199
9.1.3 配置ZooKeeper集群 201
9.1.4 啟動ZooKeeper集群 204
9.2 HBase集群的安裝與配置 206
9.2.1 下載并安裝HBase 206
9.2.2 配置HBase 207
9.2.3 啟動并驗證HBase 211
9.3 HBase的基本應(yīng)用 212
9.3.1 創(chuàng)建表 212
9.3.2 插入數(shù)據(jù) 213
9.3.3 掃描全表的數(shù)據(jù) 213
9.3.4 獲取某一行的數(shù)據(jù) 213
9.3.5 刪除表 213
小結(jié) 213
習(xí)題 214
第10章 Spark的介紹與
安裝 215
10.1 Spark概述 216
10.1.1 Spark系統(tǒng)架構(gòu) 216
10.1.2 Spark運(yùn)行流程 217
10.2 安裝與配置Scala 218
10.2.1 下載Scala 218
10.2.2 安裝Scala 219
10.2.3 啟動與應(yīng)用Scala 220
10.3 安裝與配置Spark 222
10.3.1 安裝模式 222
10.3.2 安裝Spark 222
10.3.3 配置環(huán)境變量 224
10.3.4 啟動并驗證Spark 226
10.4 運(yùn)行Spark程序 227
小結(jié) 228
習(xí)題 228
第11章 綜合案例—網(wǎng)絡(luò)爬蟲大數(shù)據(jù)分析 229
11.1 網(wǎng)絡(luò)爬蟲概述 230
11.1.1 網(wǎng)絡(luò)爬蟲 230
11.1.2 網(wǎng)絡(luò)爬蟲—快手爬票 230
11.1.3 開發(fā)語言選擇 231
11.2 搭建Python開發(fā)環(huán)境 231
11.2.1 開發(fā)環(huán)境概述 231
11.2.2 安裝Python 232
11.3 搭建Qt環(huán)境 235
11.3.1 安裝Qt 235
11.3.2 安裝PyCharm開發(fā)工具 237
11.4 主窗體設(shè)計 244
11.4.1 Qt拖曳控件 244
11.4.2 代碼調(diào)試細(xì)節(jié) 248
11.5 分析網(wǎng)頁請求參數(shù) 251
11.6 下載站名文件 253
11.7 車票信息的請求與顯示 255
11.7.1 發(fā)送與分析車票信息的查詢
請求 255
11.7.2 主窗體中顯示查票信息 258
11.8 Hadoop中的網(wǎng)絡(luò)爬蟲 261
小結(jié) 262
習(xí)題 262