關(guān)于我們
書單推薦
新書推薦
|
Python爬蟲實(shí)戰(zhàn)基礎(chǔ)
本書介紹Python網(wǎng)絡(luò)爬蟲開發(fā)從業(yè)者應(yīng)掌握的基礎(chǔ)技能。本書以網(wǎng)絡(luò)爬蟲為核心,涉及大大小小數(shù)十個(gè)能力體系。本書的前半部分介紹爬蟲開發(fā)的基礎(chǔ)知識(shí),包括爬蟲開發(fā)必備的環(huán)境搭建方法、開發(fā)中常用工具的使用方法和技巧、網(wǎng)頁的構(gòu)成原理和網(wǎng)頁信息提取的方法、常用數(shù)據(jù)庫的使用方法和應(yīng)用場(chǎng)景,如通過Redis內(nèi)置的布隆過濾器實(shí)現(xiàn)大規(guī)模URL地址的去重任務(wù)。本書的后半部分主要講解網(wǎng)絡(luò)爬蟲開發(fā)所需的必要能力,包括網(wǎng)絡(luò)通信的底層原理、背后涉及的互聯(lián)網(wǎng)協(xié)議標(biāo)準(zhǔn)及如何對(duì)這些協(xié)議進(jìn)行分析并加以利用,使用Docker部署網(wǎng)絡(luò)爬蟲所需的環(huán)境和爬蟲項(xiàng)目的打包部署,使用網(wǎng)絡(luò)爬蟲的核心請(qǐng)求庫實(shí)現(xiàn)與服務(wù)器端和客戶端的通信和交互,使用自動(dòng)化神器Selenium對(duì)復(fù)雜的爬蟲需求進(jìn)行快速實(shí)現(xiàn),以及網(wǎng)絡(luò)爬蟲的多任務(wù)開發(fā),重點(diǎn)是通過多線程和多進(jìn)程來提高爬蟲效率。
本書面向準(zhǔn)備從事或正在從事網(wǎng)絡(luò)爬蟲開發(fā)的從業(yè)者以及對(duì)網(wǎng)絡(luò)爬蟲有濃厚興趣的愛好者。
你還可能感興趣
我要評(píng)論
|