大數(shù)據(jù)技術(shù)基礎(chǔ)教程
定 價:49.8 元
- 作者:高永平
- 出版時間:2024/3/1
- ISBN:9787121475078
- 出 版 社:電子工業(yè)出版社
- 中圖法分類:TP274
- 頁碼:272
- 紙張:
- 版次:01
- 開本:16開
本書系統(tǒng)介紹大數(shù)據(jù)技術(shù)的原理與應(yīng)用,主要內(nèi)容包括基本概念、分布式計算編程基礎(chǔ)、Hadoop系統(tǒng)、分布式文件系統(tǒng)HDFS、分布式數(shù)據(jù)庫HBase、分布式計算框架MapReduce、數(shù)據(jù)倉庫Hive、流計算Spark Streaming、數(shù)據(jù)可視化、大數(shù)據(jù)的電商精準(zhǔn)營銷案例、好友推薦案例等章節(jié),涵蓋了海量數(shù)據(jù)的高效存儲、非結(jié)構(gòu)化數(shù)據(jù)存儲和隨機(jī)訪問、分布式并行編程、數(shù)據(jù)倉庫、實(shí)時計算、數(shù)據(jù)可視化、電商精準(zhǔn)營銷、好友推薦等各個方面的內(nèi)容。本書以簡單易懂的語言、生動有趣的實(shí)例和圖形展示知識點(diǎn),將概念、原理與應(yīng)用融會貫通,并對大數(shù)據(jù)工具軟件進(jìn)行了細(xì)致的梳理。
高永平,男,漢族,江西峽江,中共黨員;碩士生導(dǎo)師、副教授;多年來一直從事計算機(jī)科學(xué)與技術(shù)專業(yè)的教學(xué)與科研工作。主要研究方向:數(shù)據(jù)庫技術(shù)與應(yīng)用、軟件工程與知識工程。主講了本課程和研究生的主要課程為:《java程序設(shè)計(雙語)》、《數(shù)據(jù)結(jié)構(gòu)與算法》、《Web程序設(shè)計》、《面向?qū)ο蟪绦蛟O(shè)計》、《軟件工程》、《高級軟件工程》、《數(shù)據(jù)庫原理與應(yīng)用》等。在國內(nèi)外期刊公開發(fā)表各類科研和教研論文23篇,其中被EI檢索論文8篇,核心期刊發(fā)表論文4篇。主持或作為主要參與人的科研和教研項目18項,其中國家自然2項,省級科研項目9項,省級教研7項;另外還有橫向課題5項。獲得省高校科技成果二等獎1項,省教學(xué)成果獎二等獎和三等獎各1項;校教學(xué)成果獎5項。
第1章 緒論 1
1.1 大數(shù)據(jù)的發(fā)展歷程 1
1.2 大數(shù)據(jù)的概念 4
1.3 大數(shù)據(jù)的特征 5
1.4 大數(shù)據(jù)的應(yīng)用 6
1.5 大數(shù)據(jù)分析方法 10
1.6 大數(shù)據(jù)面臨的挑戰(zhàn) 11
習(xí)題 12
第2章 分布式計算編程基礎(chǔ) 13
2.1 分布式系統(tǒng) 13
2.2 分布式計算架構(gòu) 15
2.3 分布式文件系統(tǒng) 16
2.4 CAP 定理 18
習(xí)題 21
第3章 大數(shù)據(jù)處理框架 Hadoop 22
3.1 Hadoop簡介 22
3.2 Hadoop 生態(tài)系統(tǒng) 24
3.3 Hadoop 的安裝與使用 31
習(xí)題 40
第4章 Hadoop 分布式文件系統(tǒng) 42
4.1 HDFS 簡介 42
4.2 HDFS的設(shè)計原則 43
4.3 HDFS 的核心概念 44
4.4 HDFS 的體系結(jié)構(gòu) 45
4.5 HDFS 的存儲原理 47
4.6 HDFS 的數(shù)據(jù)讀寫流程 49
4.7 HDFS 的編程實(shí)現(xiàn) 53
習(xí)題 57
第5章 分布式數(shù)據(jù)庫 HBase 59
5.1 HBase 簡介 59
5.2 HBase 數(shù)據(jù)模型 60
5.3 HBase 的系統(tǒng)架構(gòu) 64
5.4 HBase 表結(jié)構(gòu)設(shè)計 67
5.5 HBase 的數(shù)據(jù)讀寫流程 69
5.6 HBase 編程實(shí)踐 72
習(xí)題 76
第6章 分布式計算框架 MapReduce 77
6.1 MapReduce 簡介 77
6.2 MapReduce 的計算模型 77
6.3 MapReduce 的工作原理 78
6.4 MapReduce 編程實(shí)踐 81
習(xí)題 89
第7章 數(shù)據(jù)倉庫 Hive 91
7.1 Hive 簡介 91
7.2 Hive 的架構(gòu) 93
7.3 Hive 的數(shù)據(jù)類型及應(yīng)用 95
7.4 Hive 的數(shù)據(jù)模型 97
7.5 DDL 的應(yīng)用 98
7.6 DML 的應(yīng)用 101
7.7 JDBC 訪問 103
習(xí)題 104
第8章 Spark Streaming 105
8.1 流計算概述 105
8.2 流計算的概念 106
8.3 Spark 概述 107
8.4 Spark Standalone 模式的架構(gòu) 108
8.5 Spark Streaming簡介 110
8.6 編寫 Spark Streaming 程序的基本步驟 111
8.7 創(chuàng)建 StreamingContext 對象 111
8.8 Spark Streaming 數(shù)據(jù)源 112
8.9 Spark Streaming 程序示例 113
習(xí)題 116
第9章 數(shù)據(jù)可視化 117
9.1 可視化概述 117
9.2 可視化的作用 118
9.3 可視化工具 119
9.4 可視化典型案例 125
習(xí)題 126
第10章 基于大數(shù)據(jù)的電商精準(zhǔn)營銷 128
10.1 數(shù)據(jù)預(yù)處理概述 128
10.2 數(shù)據(jù)探索與可視化 132
第11章 好友推薦案例分析 140
11.1 任務(wù)需求 140
11.2 準(zhǔn)備工作 140
11.3 創(chuàng)建 Maven 項目 143
11.4 FriendRecommend 程序的實(shí)現(xiàn) 148
11.5 運(yùn)行程序與結(jié)果驗證 157
參考文獻(xiàn) 161