Spark大數(shù)據(jù)分析技術(shù)(Scala版)
定 價:39 元
- 作者:曹潔 著
- 出版時間:2021/1/1
- ISBN:9787512433854
- 出 版 社:北京航空航天大學出版社
- 中圖法分類:TP274
- 頁碼:195
- 紙張:膠版紙
- 版次:1
- 開本:16開
《Spark大數(shù)據(jù)分析技術(shù)(Scala版)》系統(tǒng)介紹了Spark大數(shù)據(jù)技術(shù)的相關(guān)知識,內(nèi)容包括Spark概述、Scala基礎(chǔ)編程、基于Scala的Spark編程、Windows環(huán)境下的Spark綜合編程、SparkSQL結(jié)構(gòu)化數(shù)據(jù)處理、SparkStreaming流計算、SparkGraphX圖計算、SparkMLlib機器學習。
《Spark大數(shù)據(jù)分析技術(shù)(Scala版)》還給出了Spark大數(shù)據(jù)相關(guān)技術(shù)的許多編程示例與詳細注解。
《Spark大數(shù)據(jù)分析技術(shù)(Scala版)》可作為高等院校計算機、軟件工程、數(shù)據(jù)科學與大數(shù)據(jù)技術(shù)、智能科學與技術(shù)、人工智能等專業(yè)的大數(shù)據(jù)課程教材,也可供相關(guān)技術(shù)人員參考。
數(shù)據(jù)已成為國家基礎(chǔ)性戰(zhàn)略資源,大數(shù)據(jù)正逐漸對全球生產(chǎn)、流通、分配、消費活動以及經(jīng)濟運行機制、社會生活方式和國家治理產(chǎn)生重要影響。2013年6月,Spark進入Apache成為孵化項目,8個月后成為Apache頂級項目。Spark因其先進的設(shè)計理念而迅速成為社區(qū)的熱門項目,隨著Spark的SparkSQL、SparkStreaming、MLlib和GraphX等組件被相繼推出,這些組件逐漸形成大數(shù)據(jù)處理一站式解決平臺。
Spark功能強大,涉及的知識面寬廣。本書用通俗易懂的語言闡述相關(guān)原理和操作,并給出了豐富的操作案例,同時將知識點講解與實際操作相結(jié)合,使讀者學以致用。
全書共8章,各章內(nèi)容如下。
第1章為Spark概述。本章主要介紹Spark運行機制、Spark安裝及配置、SparkScala編程和SparkPython編程。
第2章為Scala基礎(chǔ)編程。本章對Scala進行概要介紹,主要包括Scala特性,Scala安裝,Scala基本數(shù)據(jù)類型,Scala常量和變量,Scala數(shù)組、列表、集合和映射,Scala控制結(jié)構(gòu),Scala函數(shù),Scala類和Scala讀寫文件。
第3章為基于Scala的Spark編程。RDD是Spark的核心概念,本質(zhì)上是一個只讀的分區(qū)記錄集合,每個分區(qū)是一個數(shù)據(jù)集片段。Spark基于Scala語言提供了對RDD的轉(zhuǎn)換操作和行動操作,通過這些操作可實現(xiàn)復雜的應(yīng)用。本章主要介紹RDD的創(chuàng)建方法、RDD各種操作、RDD屬性、RDD持久化的方法以及如何使用Scala語言編寫Spark應(yīng)用程序。
第4章為Windows環(huán)境下的Spark綜合編程。本章主要介紹如何在Windows系統(tǒng)上搭建Spark、Hadoop和Maven開發(fā)環(huán)境,并給出一個Spark綜合編程實例。
第5章為SparksoL結(jié)構(gòu)化數(shù)據(jù)處理。SparksoL是Spark用來處理結(jié)構(gòu)化數(shù)據(jù)的一個模塊,它提供了一個編程抽象,叫作DataFrame。本章主要介紹SparksoL與Shell交互、DataFrame對象的創(chuàng)建、DataFrame對象上的常用操作。
第6章為SparkStreaming流計算。本章首先介紹流計算的相關(guān)概念、SparkStreaming運行原理、SparkStreaming程序編寫步驟、StreamingContext對象的創(chuàng)建,然后介紹DStream的常用操作。
第1章 Spark概述
1.1 認識Spark
1.1.1 Spark的產(chǎn)生背景
1.1.2 Spark的優(yōu)點
1.1.3 Spark應(yīng)用場景
1.1.4 Spark生態(tài)系統(tǒng)
1.2 Spark運行機制
1.2.1 Spark基本概念
1.2.2 Spark運行架構(gòu)
1.2.3 Spark應(yīng)用執(zhí)行的基本流程
1.3 Spark的安裝及配置
1.3.1 Spark安裝的基礎(chǔ)環(huán)境
1.3.2 下載安裝文件
1.3.3 單機模式配置
1.3.4 偽分布式模式配置
1.4 SparkScala編程
1.4.1 啟動SparkShell
1.4.2 退出SparkSheU
1.5 SparkPython編程
習題
第2章 Scala基礎(chǔ)編程
2.1 Scala特性
2.2 Windows環(huán)境下的Scala安裝
2.2.1 jdk安裝與環(huán)境變量配置
2.2.2 Scala安裝
2.3 聲明常量和變量
2.3.1 聲明常量
2.3.2 聲明變量
2.4 字符串
2.4.1 基本數(shù)據(jù)類型
2.4.2 運算符
2.4.3 字符串對象的常用方法
2.5 Scala控制結(jié)構(gòu)
2.5.1 條件表達式
2.5.2 ifelse選擇結(jié)構(gòu)
2.5.3 編寫Scala腳本
2.5.4 循環(huán)
2.6 Scala數(shù)組
2.6.1 數(shù)組的分類
2.6.2 遍歷數(shù)組
2.6.3 數(shù)組轉(zhuǎn)換
2.6.4 數(shù)組對象的常用方法
2.7 列表
2.7.1 不可變列表(List)創(chuàng)建
2.7.2 不可變列表(List)操作
2.7.3 可變列表ListBuffer
2.8 集合
2.8.1 不可變集合
2.8.2 可變集合
2.9 映射
2.9.1 不可變映射
2.9.2 可變映射
2.10 元組
2.10.1 元組常用操作
2.10.2 拉鏈操作
2.11 Scala函數(shù)
2.11.1 函數(shù)定義
2.11.2 匿名函數(shù)
2.11.3 高階函數(shù)
2.12 Scala模式匹配
2.13 Scala類
2.13.1 class類
2.13.2 Object對象
2.14 Scala讀寫文件
2.14.1 讀取文件
2.14.2 寫入文件
習題
……
第3章 基于Scala的Spark編程
第4章 Windows環(huán)境下的Spark綜合編程
第5章 SparkSQL結(jié)構(gòu)化數(shù)據(jù)處理
第6章 SparkStreaming流計算
第7章 SparkGraphX圖計算
第8章 SparkMLlib機器學習
參考文獻