本書以任務(wù)驅(qū)動為主線,圍繞企業(yè)級應(yīng)用進(jìn)行項(xiàng)目任務(wù)設(shè)計(jì),主要內(nèi)容包括數(shù)據(jù)采集與預(yù)處理準(zhǔn)備、網(wǎng)絡(luò)爬蟲實(shí)踐、日志數(shù)據(jù)采集實(shí)踐和數(shù)據(jù)預(yù)處理實(shí)踐,全面地講述了Scrapy、Flume、Pig、Kettle、Pandas、OpenRefine等技術(shù),以及urllib、Selenium基本庫和BeautifulSoup解析庫的相關(guān)知識與應(yīng)用案例。
本書內(nèi)容實(shí)用,可操作性強(qiáng),語言精練、通俗易懂,可作為高等院校計(jì)算機(jī)應(yīng)用技術(shù)、大數(shù)據(jù)技術(shù)與應(yīng)用、軟件技術(shù)、云計(jì)算技術(shù)與應(yīng)用等計(jì)算機(jī)相關(guān)專業(yè)的教材,也可作為大數(shù)據(jù)分析、云計(jì)算應(yīng)用領(lǐng)域技術(shù)人員的參考用書。
1.基于企業(yè)級項(xiàng)目,以任務(wù)驅(qū)動為主線,便于教師教學(xué),學(xué)生理解。
2.配套資源齊全。配備教學(xué)大綱、PPT課件、授課計(jì)劃、習(xí)題答案。
3.企業(yè)配套資源,院校完善體系結(jié)構(gòu)。
米洪,主持省級項(xiàng)目3項(xiàng);發(fā)表北大核心論文5篇;學(xué)院交通物聯(lián)網(wǎng)技術(shù)科技創(chuàng)新團(tuán)隊(duì)骨干成員;江蘇省高等職業(yè)院校教師專業(yè)帶頭人訪問學(xué)者(東南大學(xué));江蘇省高!扒嗨{(lán)工程”優(yōu)秀中青年骨干教師。
項(xiàng)目1
數(shù)據(jù)采集與預(yù)處理準(zhǔn)備 1
學(xué)習(xí)目標(biāo) 1
項(xiàng)目描述 1
任務(wù)1 認(rèn)識數(shù)據(jù)采集技術(shù),熟悉數(shù)據(jù)采集平臺 1
任務(wù)描述 1
任務(wù)目標(biāo) 2
知識準(zhǔn)備 2
任務(wù)實(shí)施 10
任務(wù)2 認(rèn)識數(shù)據(jù)預(yù)處理技術(shù) 13
任務(wù)描述 13
任務(wù)目標(biāo) 13
知識準(zhǔn)備 13
任務(wù)實(shí)施 19
項(xiàng)目2
網(wǎng)絡(luò)爬蟲實(shí)踐 24
學(xué)習(xí)目標(biāo) 24
項(xiàng)目描述 24
任務(wù)1 使用urllib爬取北京公交線路信息 24
任務(wù)描述 24
任務(wù)目標(biāo) 25
知識準(zhǔn)備 25
任務(wù)實(shí)施 48
任務(wù)2 使用Selenium爬取淘寶網(wǎng)站信息 58
任務(wù)描述 58
任務(wù)目標(biāo) 58
知識準(zhǔn)備 58
任務(wù)實(shí)施 69
任務(wù)3 使用Scrapy爬取北京公交信息 75
任務(wù)描述 75
任務(wù)目標(biāo) 75
知識準(zhǔn)備 75
任務(wù)實(shí)施 78
任務(wù)4 創(chuàng)新與拓展 86
任務(wù)描述 86
任務(wù)目標(biāo) 86
項(xiàng)目3
日志數(shù)據(jù)采集實(shí)踐 87
學(xué)習(xí)目標(biāo) 87
項(xiàng)目描述 87
任務(wù)1 Flume的安裝和配置 87
任務(wù)描述 87
任務(wù)目標(biāo) 88
知識準(zhǔn)備 88
任務(wù)實(shí)施 95
任務(wù)2 Flume采集數(shù)據(jù)上傳到集群 105
任務(wù)描述 105
任務(wù)目標(biāo) 106
知識準(zhǔn)備 106
任務(wù)實(shí)施 110
任務(wù)3 創(chuàng)新與拓展 118
任務(wù)描述 118
任務(wù)目標(biāo) 118
項(xiàng)目4
數(shù)據(jù)預(yù)處理實(shí)踐 119
學(xué)習(xí)目標(biāo) 119
項(xiàng)目描述 119
任務(wù)1 用Pig進(jìn)行數(shù)據(jù)預(yù)處理 119
任務(wù)描述 119
任務(wù)目標(biāo) 120
知識準(zhǔn)備 120
任務(wù)實(shí)施 134
任務(wù)2 用Kettle進(jìn)行數(shù)據(jù)預(yù)處理 137
任務(wù)描述 137
任務(wù)目標(biāo) 137
知識準(zhǔn)備 137
任務(wù)實(shí)施 139
任務(wù)3 用Pandas進(jìn)行數(shù)據(jù)預(yù)處理 150
任務(wù)描述 150
任務(wù)目標(biāo) 150
知識準(zhǔn)備 150
任務(wù)實(shí)施 153
任務(wù)4 用OpenRefine進(jìn)行數(shù)據(jù)預(yù)處理 155
任務(wù)描述 155
任務(wù)目標(biāo) 155
知識準(zhǔn)備 155
任務(wù)實(shí)施 157
任務(wù)5 用Flume Interceptor對日志信息進(jìn)行數(shù)據(jù)預(yù)處理 162
任務(wù)描述 162
任務(wù)目標(biāo) 163
知識準(zhǔn)備 163
任務(wù)實(shí)施 167
任務(wù)6 創(chuàng)新與拓展 176
任務(wù)描述 176
任務(wù)目標(biāo) 176