本書是《網(wǎng)絡(luò)工程師教育叢書》的第7冊,介紹和討論大數(shù)據(jù)的基礎(chǔ)知識、技術(shù)原理和應用。全書內(nèi)容分為6章,包括緒論、大數(shù)據(jù)采集和預處理、大數(shù)據(jù)存儲與管理、大數(shù)據(jù)分析與計算、大數(shù)據(jù)可視化和大數(shù)據(jù)應用。本書既介紹大數(shù)據(jù)技術(shù)基礎(chǔ)知識,又將這些知識與具體應用有機結(jié)合起來,并借助可視化圖表深入剖析大數(shù)據(jù)技術(shù)原理和洞見數(shù)據(jù)價值的方法。各章均配有練習、本章小結(jié)及小測驗,以便理解掌握重要知識點。另外,考慮到大數(shù)據(jù)技術(shù)涉及許多新名詞和專業(yè)性極強的詞匯,書末以附錄形式給出了相關(guān)術(shù)語的注釋,以方便讀者查閱。
劉化君:南京工程學院通信學院教授、院長,電子工業(yè)出版社優(yōu)秀作者。長期從事計算機網(wǎng)絡(luò)與通信的教學與科研工作。主持完成江蘇省高校自然科學基金等項目3項,以及多項省市重點計算機網(wǎng)絡(luò)項目;發(fā)表學術(shù)論文60余篇,出版專著和教材30多部;獲國家級教學成果二等獎1項,山東省教育廳科技進步獎著作二等獎1項。
目 錄
第一章 緒論 (1)
概述 (1)
第一節(jié) 大數(shù)據(jù)的概念 (1)
何謂大數(shù)據(jù) (2)
大數(shù)據(jù)結(jié)構(gòu)類型 (6)
大數(shù)據(jù)的作用和影響 (8)
練習 (9)
第二節(jié) 大數(shù)據(jù)分析和計算 (9)
大數(shù)據(jù)分析計算的意義 (10)
大數(shù)據(jù)計算的特點 (11)
大數(shù)據(jù)計算系統(tǒng)架構(gòu) (12)
練習 (16)
第三節(jié) 大數(shù)據(jù)技術(shù)體系 (17)
大數(shù)據(jù)技術(shù)棧 (17)
大數(shù)據(jù)計算支撐技術(shù) (20)
Hadoop生態(tài)系統(tǒng) (28)
練習 (30)
第四節(jié) Hadoop平臺構(gòu)建 (30)
Hadoop 集群配置 (30)
Hadoop的安裝與運行 (32)
練習 (39)
本章小結(jié) (39)
第二章 大數(shù)據(jù)采集和預處理 (41)
概述 (41)
第一節(jié) 大數(shù)據(jù)采集 (41)
大數(shù)據(jù)采集的基本概念 (42)
大數(shù)據(jù)采集的技術(shù)和方法 (45)
大數(shù)據(jù)采集工具的設(shè)計 (48)
練習 (50)
第二節(jié) 互聯(lián)網(wǎng)數(shù)據(jù)采集 (51)
基于網(wǎng)絡(luò)爬蟲的數(shù)據(jù)采集 (51)
系統(tǒng)日志采集 (59)
日志數(shù)據(jù)采集示例 (63)
練習 (67)
第三節(jié) 大數(shù)據(jù)清洗 (68)
數(shù)據(jù)質(zhì)量問題 (68)
大數(shù)據(jù)清洗的對象 (70)
大數(shù)據(jù)清洗的基本方法 (71)
日志文件數(shù)據(jù)清洗示例 (73)
練習 (75)
第四節(jié) 大數(shù)據(jù)采集和預處理工具 (76)
Apache Flume (76)
Splunk Forwarder (83)
國內(nèi)常見的大數(shù)據(jù)處理軟件 (84)
練習 (86)
本章小結(jié) (86)
第三章 大數(shù)據(jù)存儲與管理 (88)
概述 (88)
第一節(jié) 分布式存儲系統(tǒng) (89)
集中式存儲 (89)
分布式存儲 (90)
練習 (95)
第二節(jié) Hadoop分布式文件系統(tǒng)(HDFS) (96)
HDFS的相關(guān)概念 (96)
HDFS的系統(tǒng)架構(gòu) (100)
HDFS的存儲機制 (102)
HDFS的數(shù)據(jù)讀寫過程 (104)
HDFS應用編程 (106)
練習 (114)
第三節(jié) 非關(guān)系數(shù)據(jù)庫(NoSQL) (115)
NoSQL概述 (115)
NoSQL的技術(shù)基礎(chǔ) (118)
NoSQL的數(shù)據(jù)存儲類型 (120)
典型的NoSQL工具 (125)
練習 (132)
第四節(jié) 分布式數(shù)據(jù)庫HBase (132)
HBase系統(tǒng)結(jié)構(gòu) (133)
HBase數(shù)據(jù)模型與存儲 (138)
HBase數(shù)據(jù)讀寫 (144)
HBase應用編程 (145)
練習 (152)
本章小結(jié) (153)
第四章 大數(shù)據(jù)分析與計算 (156)
概述 (156)
第一節(jié) 大數(shù)據(jù)分析 (156)
何謂大數(shù)據(jù)分析 (157)
大數(shù)據(jù)分析的類別 (158)
大數(shù)據(jù)分析的基本方法 (160)
練習 (166)
第二節(jié) 大數(shù)據(jù)挖掘 (167)
數(shù)據(jù)關(guān)聯(lián)分析 (168)
數(shù)據(jù)聚類分析 (169)
數(shù)據(jù)分類與預測 (177)
練習 (181)
第三節(jié) 大數(shù)據(jù)處理系統(tǒng)(MapReduce/Spark) (182)
MapReduce (182)
Spark (191)
練習 (202)
第四節(jié) Spark應用示例 (203)
Spark配置及運行 (203)
Spark的Scala編程 (208)
Spark的主要應用場景 (210)
練習 (211)
本章小結(jié) (211)
第五章 大數(shù)據(jù)可視化 (214)
第一節(jié) 可視化基礎(chǔ)知識 (214)
數(shù)據(jù)可視化 (215)
大數(shù)據(jù)可視化 (217)
大數(shù)據(jù)可視化設(shè)計 (220)
練習 (222)
第二節(jié) 可視化分析研發(fā)資源與工具 (222)
信息圖表工具 (223)
時間線工具 (225)
地圖工具 (226)
可視化分析研發(fā)資源與編程語言 (227)
練習 (229)
第三節(jié) 大數(shù)據(jù)可視化應用 (229)
基于Web的數(shù)據(jù)可視化 (229)
文本數(shù)據(jù)可視化 (234)
社交網(wǎng)絡(luò)可視化 (235)
練習 (236)
本章小結(jié) (237)
第六章 大數(shù)據(jù)應用 (239)
第一節(jié) 大數(shù)據(jù)查詢 (239)
大數(shù)據(jù)查詢分析引擎 (239)
基于Spark的大數(shù)據(jù)實時查詢 (245)
大數(shù)據(jù)查詢實例及其技術(shù)發(fā)展 (248)
練習 (249)
第二節(jié) 大數(shù)據(jù)應用與發(fā)展 (249)
大數(shù)據(jù)的社會價值 (249)
大數(shù)據(jù)應用場景 (252)
大數(shù)據(jù)應用發(fā)展趨勢 (257)
練習 (259)
第三節(jié) 大數(shù)據(jù)隱私與安全 (259)
大數(shù)據(jù)應用中的安全 (260)
大數(shù)據(jù)安全技術(shù) (261)
大數(shù)據(jù)安全與隱私保護措施 (264)
練習 (265)
本章小結(jié) (265)
附錄A 課程測驗 (267)
附錄B 術(shù)語表 (270)
參考文獻 (278)