Spark大數(shù)據(jù)實(shí)時分析實(shí)戰(zhàn)
《Spark大數(shù)據(jù)實(shí)時分析實(shí)戰(zhàn)》分為六個項(xiàng)目,通過真實(shí)大數(shù)據(jù)實(shí)時分析項(xiàng)目的導(dǎo)入,引導(dǎo)讀者完成大數(shù)據(jù)實(shí)時分析平臺Spark的搭建,通過對基于Hadoop生態(tài)圈中Yarn資源調(diào)度框架,搭建Spark日志管理系統(tǒng),搭建Kafka分布式消息系統(tǒng),在工作中實(shí)現(xiàn)使用SparkStreaming實(shí)時讀取Kafka中的數(shù)據(jù)進(jìn)行實(shí)時處理。
《Spark大數(shù)據(jù)實(shí)時分析實(shí)戰(zhàn)》適用于大數(shù)據(jù)技術(shù)與應(yīng)用、數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)等電子信息類專業(yè)教學(xué)的教材,也可作為工程技術(shù)人員的參考書。
近年來,智能設(shè)備和智能應(yīng)用迅猛發(fā)展,極大地方便了人們的工作和日常生活,同時,也產(chǎn)生了大量的數(shù)據(jù)。這些應(yīng)用和服務(wù)的成功得益于大數(shù)據(jù)和日益完善的實(shí)時分析技術(shù)。大數(shù)據(jù)實(shí)時分析技術(shù)的出現(xiàn),可以對這些數(shù)據(jù)進(jìn)行快速的分析,讓決策者能夠迅速地把握用戶的關(guān)鍵需求,并能夠及時響應(yīng)用戶的需求變化。未來幾年,將有數(shù)以億計(jì)的智能設(shè)備接人互聯(lián)網(wǎng),從智能手機(jī)、臺式機(jī)、汽車到智能家居,都會接入互聯(lián)網(wǎng)。未來的數(shù)據(jù)分析將對實(shí)時性要求越來越高。
針對大數(shù)據(jù)的迅猛發(fā)展,本書結(jié)合實(shí)際應(yīng)用案例,選用高性能的Spark技術(shù)作為大數(shù)據(jù)實(shí)時分析的工具,介紹了實(shí)時大數(shù)據(jù)分析的實(shí)現(xiàn)過程,為讀者提供了快速安裝、搭建大數(shù)據(jù)分析集群和進(jìn)行實(shí)時數(shù)據(jù)分析所需的技術(shù)。
本書采用項(xiàng)目驅(qū)動的編寫方式,精心設(shè)計(jì)了6個項(xiàng)目,覆蓋了Spark大數(shù)據(jù)實(shí)時分析技術(shù)所涉及的基礎(chǔ)技術(shù)介紹、集群搭建,以及日志服務(wù)器搭建等知識技能點(diǎn)。書中深入淺出地介紹了Spark技術(shù)的基本原理、集群的構(gòu)建與安裝、基于Yam的Spark集群搭建、Spark日志服務(wù)器的搭建、Kafka集群的構(gòu)建與安裝,并通過案例對Kafka集群進(jìn)行了測試。具體內(nèi)容為:
項(xiàng)目一從數(shù)據(jù)存儲技術(shù)、分析技術(shù)、批數(shù)據(jù)和實(shí)時數(shù)據(jù)等數(shù)據(jù)分析背景知識人手,介紹了實(shí)時數(shù)據(jù)處理的價值、Spark實(shí)時數(shù)據(jù)分析技術(shù)。
項(xiàng)目二通過具體的案例操作,詳細(xì)介紹了Spark集群規(guī)劃、安裝準(zhǔn)備、集群搭建、驗(yàn)證及客戶端應(yīng)用的搭建。
項(xiàng)目三通過案例介紹了基于Yarn的Spark集群的搭建、配置和驗(yàn)證的方法。
項(xiàng)目四介紹了Spark日志服務(wù)器的配置及驗(yàn)證日志服務(wù)器的方法。
項(xiàng)目五和項(xiàng)目六通過案例介紹了集群搭建、集群規(guī)劃、安裝配置,并對Kafka集群進(jìn)行了測試。
本書由重慶電子工程職業(yè)學(xué)院付雯、聶強(qiáng)擔(dān)任主編,重慶電子工程職業(yè)學(xué)院武春嶺、李俊翰、王寧憶、李清蓮、譚博文及濰坊職業(yè)學(xué)院鄭偉擔(dān)任副主編,來自重慶課外島科技發(fā)展有限公司的文紅亞高級工程師也參與了本書的部分編寫工作。
項(xiàng)目一 初識Spark技術(shù)
任務(wù)1.1 數(shù)據(jù)處理系統(tǒng)
1.1.1 數(shù)據(jù)存儲技術(shù)
1.1.2 數(shù)據(jù)分析技術(shù)
1.1.3 批數(shù)據(jù)和實(shí)時數(shù)據(jù)
1.1.4 數(shù)據(jù)價值挖掘
任務(wù)1.2 實(shí)時數(shù)據(jù)處理
1.2.1 實(shí)時數(shù)據(jù)的價值
1.2.2 實(shí)時數(shù)據(jù)處理技術(shù)
1.2.3 Spark實(shí)時數(shù)據(jù)處理
項(xiàng)目二 Spark集群的構(gòu)建與安裝
任務(wù)2.1 Spark集群搭建
2.1.1 平臺選擇
2.1.2 軟件選擇
2.1.3 Spark集群構(gòu)建流程
任務(wù)2.2 Spark集群規(guī)劃
2.2.1 Spark集群節(jié)點(diǎn)劃分
2.2.2 軟件要求
2.2.3 網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)規(guī)劃
任務(wù)2.3 Spark安裝準(zhǔn)備
2.3.1 JDK安裝
2.3.2 節(jié)點(diǎn)間的配置
2.3.3 Spark安裝包下載
任務(wù)2.4 Spark集群搭建
2.4.1 配置Master節(jié)點(diǎn)
2.4.2 配置Worker節(jié)點(diǎn)
2.4.3 分發(fā)安裝包
2.4.4 啟動集群
任務(wù)2.5 驗(yàn)證Spark
2.5.1 驗(yàn)證Spark進(jìn)程
2.5.2 驗(yàn)證WEBUI界面
2.5.3 驗(yàn)證集群功能
任務(wù)2.6 Spark客戶端搭建
2.6.1 客戶端介紹
2.6.2 客戶端搭建及使用
項(xiàng)目三 Spark基于Yarn搭建
任務(wù)3.1 基于Yarn構(gòu)建介紹
3.1.1 基于Yarn搭建環(huán)境配置
3.1.2 Hadoop集群
3.1.3 啟動Hadoop集群
3.1.4 驗(yàn)證Hadoop集群節(jié)點(diǎn)
任務(wù)3.2 基于Yam搭建
3.2.1 節(jié)點(diǎn)劃分配置
3.2.2 配置Spark on Yarn
3.2.3 驗(yàn)證Spark on Yarn
項(xiàng)目四 日志服務(wù)器搭建
任務(wù)4.1 日志服務(wù)器配置
4.1.1 HDFS配置
4.1.2 Spark配置
4.1.3 啟動日志服務(wù)器
4.1.4 查看日志
任務(wù)4.2 驗(yàn)證日志服務(wù)器
4.2.1 Spark-Shell介紹
4.2.2 查看運(yùn)行日志
4.2.3 啟動日志服務(wù)器
4.2.4 查看日志
……
項(xiàng)目五 Kafka集群的構(gòu)建與安裝
項(xiàng)目六 Kafka集群測試