大數(shù)據(jù)技術(shù)科普2——大數(shù)據(jù)采集、存儲(chǔ)與管理
定 價(jià):32 元
叢書(shū)名:大數(shù)據(jù)技術(shù)系列叢書(shū)
- 作者:靳大尉
- 出版時(shí)間:2023/6/1
- ISBN:9787560668178
- 出 版 社:西安電子科技大學(xué)出版社
- 中圖法分類(lèi):TP333
- 頁(yè)碼:132
- 紙張:
- 版次:1
- 開(kāi)本:16開(kāi)
本書(shū)是大數(shù)據(jù)技術(shù)普及系列讀物之一,主要涉及大數(shù)據(jù)采集、分布式文件存儲(chǔ)和非關(guān)系型數(shù)據(jù)管理等內(nèi)容。全書(shū)共6章,每章一個(gè)專(zhuān)題,按照大數(shù)據(jù)運(yùn)用流程,從網(wǎng)頁(yè)和日志文件兩種常用的大數(shù)據(jù)采集方法入手,介紹了分布式文件存儲(chǔ)、NoSQL數(shù)據(jù)庫(kù)基礎(chǔ)理論和4種NoSQL數(shù)據(jù)庫(kù)技術(shù)。針對(duì)特定技術(shù)選擇了一款最典型的產(chǎn)品進(jìn)行詮釋?zhuān)群髮?duì)Python語(yǔ)言中的Requests和BeautifulSoup包,Hadoop生態(tài)中的Flume、HDFS和HBase,以及Redis、MongoDB和Neo4j等產(chǎn)品進(jìn)行了介紹。在每章結(jié)構(gòu)上,按照要做什么(需求背景)、是什么(產(chǎn)品功能和特性)、為什么(體系結(jié)構(gòu)/數(shù)據(jù)模型)和怎么做(基本操作)?4個(gè)方面遞進(jìn)展開(kāi),內(nèi)容相對(duì)獨(dú)立,方便讀者根據(jù)自身需要選擇章節(jié)進(jìn)行閱讀。
全書(shū)內(nèi)容相對(duì)淺顯,具有較強(qiáng)的可讀性,適合對(duì)大數(shù)據(jù)技術(shù)感興趣,希望從技術(shù)和產(chǎn)品層面對(duì)大數(shù)據(jù)采集、存儲(chǔ)和管理進(jìn)行初步學(xué)習(xí)的讀者閱讀。
近年來(lái),“大數(shù)據(jù)”一詞成為人們生活中的高頻詞。無(wú)論在教育界,還是工業(yè)界,乃至政府機(jī)關(guān),在諸多正式或非正式的場(chǎng)合,都涉及大數(shù)據(jù)的學(xué)習(xí)與應(yīng)用。編者認(rèn)為,對(duì)“大數(shù)據(jù)”至少應(yīng)從數(shù)據(jù)、技術(shù)和理念三個(gè)層面來(lái)理解。在數(shù)據(jù)層面,大數(shù)據(jù)就是一堆數(shù)據(jù),即超出傳統(tǒng)系統(tǒng)處理能力的海量數(shù)據(jù);在技術(shù)層面,大數(shù)據(jù)背后有一系列的技術(shù)和產(chǎn)品支撐,包括數(shù)據(jù)的采集、存儲(chǔ)、管理和分析挖掘等;在理念層面,大數(shù)據(jù)就是“以數(shù)據(jù)為大”,小企業(yè)注重分析挖掘數(shù)據(jù)價(jià)值,大企業(yè)數(shù)據(jù)視為核心資產(chǎn)。
從數(shù)據(jù)和理念層面來(lái)看,大數(shù)據(jù)已為人所熟知,但技術(shù)層面則因其專(zhuān)業(yè)性強(qiáng),閱讀門(mén)檻高,很多概念、產(chǎn)品和知識(shí)尚需推廣普及。本書(shū)采用簡(jiǎn)單易懂的科普方式,將大數(shù)據(jù)采集、分布式文件存儲(chǔ)、各種新型數(shù)據(jù)庫(kù)管理技術(shù)等知識(shí)呈現(xiàn)給讀者。在整體內(nèi)容上,本書(shū)涵蓋網(wǎng)絡(luò)爬蟲(chóng)、日志文件采集、分布式文件存儲(chǔ)、NoSQL技術(shù)、文檔數(shù)據(jù)庫(kù)、列族數(shù)據(jù)庫(kù)和圖數(shù)據(jù)庫(kù)等知識(shí),覆蓋了大數(shù)據(jù)的采集、存儲(chǔ)和管理的方方面面。
本書(shū)編寫(xiě)時(shí)特別注意了3點(diǎn)。一是每章在內(nèi)容上相對(duì)獨(dú)立,每章都可以獨(dú)立地作為一個(gè)專(zhuān)題,而不需要其他章節(jié)內(nèi)容的支撐。當(dāng)然,如果能夠按順序閱讀,體驗(yàn)會(huì)更好。二是選擇主流、典型的開(kāi)源產(chǎn)品來(lái)闡述特定技術(shù)。例如,分布式文件存儲(chǔ)的HDFS、列族數(shù)據(jù)庫(kù)HBase、文檔數(shù)據(jù)庫(kù)MongoDB和圖數(shù)據(jù)庫(kù)Neo4j等,都是本領(lǐng)域最為流行的開(kāi)源產(chǎn)品。針對(duì)某種產(chǎn)品,選擇其次新版進(jìn)行介紹,兼顧了時(shí)效性和穩(wěn)定性。三是輔以必要的操作來(lái)“感性”地體現(xiàn)產(chǎn)品的特性和功能,操作流程和結(jié)果體現(xiàn)“知其然”;對(duì)一些經(jīng)典的產(chǎn)品如HDFS和HBase,還給出了一些“所以然”的知識(shí),供讀者深入閱讀。
本書(shū)適合對(duì)大數(shù)據(jù)技術(shù)感興趣,希望從技術(shù)層面對(duì)大數(shù)據(jù)采集、存儲(chǔ)和管理技術(shù)有初步了解的學(xué)生和企事業(yè)工作人員閱讀,也可作為計(jì)算機(jī)相關(guān)人員的補(bǔ)充讀物。
本書(shū)所涉及的內(nèi)容都是目前工業(yè)界流行的技術(shù)和產(chǎn)品,相關(guān)資料眾多,加之編者水平有限,書(shū)中可能還存在不足之處,懇請(qǐng)廣大讀者不吝賜教。
編 者
2023年2月
第1章 大數(shù)據(jù)采集 1
1.1 概述 1
1.2 網(wǎng)頁(yè)數(shù)據(jù)的爬取 3
1.2.1 網(wǎng)絡(luò)爬蟲(chóng)概述 3
1.2.2 網(wǎng)絡(luò)爬蟲(chóng)的實(shí)現(xiàn) 5
1.2.3 網(wǎng)頁(yè)爬取策略 12
1.3 日志文件的采集 13
1.3.1 Apache軟件組織 13
1.3.2 文件采集工具Flume 14
1.3.3 實(shí)驗(yàn):Flume的使用方法 16
小結(jié) 18
第2章 分布式文件存儲(chǔ) 19
2.1 Hadoop概述 19
2.1.1 Hadoop的誕生與發(fā)展 19
2.1.2 Hadoop生態(tài)系統(tǒng) 21
2.1.3 Hadoop版本演進(jìn) 23
2.1.4 Hadoop的發(fā)行版本 25
2.2 HDFS分布式文件系統(tǒng) 25
2.2.1 HDFS概述 25
2.2.2 HDFS設(shè)計(jì)思想 26
2.2.3 HDFS實(shí)現(xiàn)機(jī)制 28
2.2.4 HDFS數(shù)據(jù)讀取和寫(xiě)入 32
2.2.5 HDFS文件操作方式 35
2.3 HDFS分布式部署實(shí)戰(zhàn) 38
2.3.1 虛擬化技術(shù) 38
2.3.2 實(shí)驗(yàn)設(shè)計(jì) 41
2.3.3 實(shí)驗(yàn)過(guò)程 42
小結(jié) 50
第3章 NoSQL數(shù)據(jù)庫(kù) 51
3.1 數(shù)據(jù)管理技術(shù)的發(fā)展 51
3.2 關(guān)系型數(shù)據(jù)庫(kù)技術(shù) 53
3.3 NoSQL技術(shù)概述 58
3.3.1 傳統(tǒng)數(shù)據(jù)庫(kù)面臨的挑戰(zhàn) 58
3.3.2 NoSQL技術(shù)的特點(diǎn) 58
3.3.3 NoSQL的理論基礎(chǔ) 61
3.4 常見(jiàn)的NoSQL數(shù)據(jù)庫(kù) 62
3.4.1 NoSQL數(shù)據(jù)庫(kù)的分類(lèi) 62
3.4.2 鍵值數(shù)據(jù)庫(kù) 64
小結(jié) 67
第4章 列族數(shù)據(jù)庫(kù) 69
4.1 概述 69
4.2 HBase數(shù)據(jù)模型 70
4.2.1 列族數(shù)據(jù)模型 70
4.2.2 一個(gè)網(wǎng)頁(yè)的數(shù)據(jù)實(shí)例 75
4.3 HBase體系結(jié)構(gòu) 76
4.4 常用命令 79
4.4.1 表操作 80
4.4.2 數(shù)據(jù)操作 82
小結(jié) 84
第5章 文檔數(shù)據(jù)庫(kù) 85
5.1 以文檔進(jìn)行數(shù)據(jù)存儲(chǔ) 85
5.1.1 文本文件 85
5.1.2 常用的數(shù)據(jù)存儲(chǔ)和交換文件類(lèi)型 86
5.1.3 用數(shù)據(jù)庫(kù)管理文檔 89
5.2 MongoDB文檔數(shù)據(jù)庫(kù) 89
5.2.1 概述 90
5.2.2 數(shù)據(jù)模型 91
5.2.3 BSON數(shù)據(jù)存儲(chǔ) 94
5.3 MongoDB的常用操作 96
5.3.1 安裝部署 96
5.3.2 數(shù)據(jù)庫(kù)操作 97
5.3.3 集合操作 99
5.3.4 索引操作 107
小結(jié) 109
第6章 圖數(shù)據(jù)庫(kù) 110
6.1 概述 110
6.2 圖模型 112
6.2.1 圖論 112
6.2.2 網(wǎng)絡(luò)模型 113
6.2.3 圖數(shù)據(jù)庫(kù) 115
6.3 圖數(shù)據(jù)的存儲(chǔ) 116
6.3.1 鄰接矩陣 117
6.3.2 鄰接表 118
6.4 圖數(shù)據(jù)的檢索 118
6.5 圖數(shù)據(jù)庫(kù)Neo4j 119
6.5.1 概況 119
6.5.2 安裝使用 120
小結(jié) 123
參考文獻(xiàn) 124