Python爬蟲(chóng)基礎(chǔ)與實(shí)戰(zhàn)
定 價(jià):64.8 元
- 作者:夏素霞,杜蘭著
- 出版時(shí)間:2024/8/1
- ISBN:9787121479014
- 出 版 社:電子工業(yè)出版社
- 中圖法分類:TP311.561
- 頁(yè)碼:396頁(yè)
- 紙張:
- 版次:1
- 開(kāi)本:26cm
本書(shū)是一本應(yīng)用爬蟲(chóng)技術(shù)進(jìn)行數(shù)據(jù)采集、整理和數(shù)據(jù)可視化的實(shí)戰(zhàn)讀物。本書(shū)以高效開(kāi)源的python語(yǔ)言編寫(xiě),python擁有多重開(kāi)源的網(wǎng)絡(luò)爬蟲(chóng)工具、數(shù)據(jù)分析工具和數(shù)據(jù)可視化的工具,代碼簡(jiǎn)潔,便于學(xué)習(xí)。本書(shū)集中于常用的python第三方工具,從工具的安裝、引入到方法和屬性做了詳細(xì)的介紹,同時(shí)對(duì)各種方法和屬性通過(guò)大量案例講解幫助讀者理解。每一章都有基礎(chǔ)應(yīng)用到綜合實(shí)戰(zhàn),每一個(gè)案例都經(jīng)過(guò)實(shí)戰(zhàn)檢驗(yàn)。本書(shū)既強(qiáng)調(diào)基礎(chǔ),又力求體現(xiàn)新知識(shí)與新技術(shù),在編寫(xiě)體例上采用簡(jiǎn)約的文字表述,配合詳細(xì)操作步驟的圖片,圖文并茂,直觀明了。注重理論和實(shí)踐相結(jié)合,設(shè)置了知識(shí)圖譜、學(xué)習(xí)目標(biāo)、知識(shí)指南、任務(wù)實(shí)訓(xùn)、結(jié)果分析等模塊。為了讓讀者能夠及時(shí)地檢查自己的學(xué)習(xí)效果,把握自己的學(xué)習(xí)進(jìn)度,每節(jié)都附有豐富的鞏固訓(xùn)練,前五章還配有測(cè)試題,并通過(guò)配套的技能訓(xùn)練項(xiàng)目來(lái)加強(qiáng)學(xué)生技能的培養(yǎng)。
第1章Python爬蟲(chóng)應(yīng)用基礎(chǔ) (主要介紹爬蟲(chóng)中重點(diǎn)應(yīng)用知識(shí))
1.1 Python的安裝與開(kāi)發(fā)環(huán)境配置
1.1.1在Windows上安裝
1.1.2開(kāi)發(fā)環(huán)境介紹
1.2 Python的基礎(chǔ)
1.2.1 Python的基本語(yǔ)法
1.2.2數(shù)據(jù)類型與常用函數(shù)
1.2.3邏輯控制
1.3 Python序列應(yīng)用(爬蟲(chóng)常用)
1.4 Python中的函數(shù)與類(含生成器、模塊概念)
1.5 異常處理
第2章 python網(wǎng)頁(yè)下載技術(shù)
2.1 HTTP協(xié)議簡(jiǎn)介
2.1.1 HTTP請(qǐng)求消息
2.1.2 HTTP響應(yīng)消息
2.2 爬蟲(chóng)基礎(chǔ)簡(jiǎn)介
2.2.1 爬蟲(chóng)分類
2.2.2 爬蟲(chóng)框架
2.3 robots協(xié)議
2.4 網(wǎng)頁(yè)下載器requests庫(kù)的應(yīng)用
2.4.1 安裝
2.4.2 requests庫(kù)的常用方法
2.4.3 requests爬蟲(chóng)之定義請(qǐng)求頭
2.4.4 requests庫(kù)的響應(yīng)信息
第3章 頁(yè)面解析技術(shù)
3.1 html dom 基礎(chǔ)
3.2 css selector定位器
3.2.1 安裝應(yīng)用環(huán)境
3.2.2 css選擇器詳解
3.2.3 lxml etree解釋器
3.2.4 css選擇器綜合應(yīng)用實(shí)戰(zhàn)
3.3 BeautifulSoup4
3.3.1 安裝環(huán)境
3.3.2 bs4庫(kù)的應(yīng)用
3.3.3 BeautifulSoup類的基本元素與常用方法
3.3.4 bs4綜合應(yīng)用實(shí)戰(zhàn)
3.4 Xpath
3.4.1 Xpath基礎(chǔ)
3.4.2 Xpath語(yǔ)法
3.4.3 XPath Helper插件
3.4.4 XPath綜合應(yīng)用
3.4.5 加密文字處理
3.4.6 字符串中無(wú)用字符清洗方法
3.5 正則表達(dá)式
3.5.1 語(yǔ)法
3.5.2 re模塊中的常用函數(shù)
3.5.3 常用正則表達(dá)式
3.5.4 正則表達(dá)式解析網(wǎng)頁(yè)應(yīng)用實(shí)戰(zhàn)
第4章 爬蟲(chóng)之文件存儲(chǔ)
4.1 Python文件系統(tǒng)
4.1.1基本的文件讀寫(xiě)
4.1.2 python文件與目錄操作(os模塊)
4.2 CSV文件
4.2.1 CSV簡(jiǎn)介
4.2.2 CSV的讀寫(xiě)與格式轉(zhuǎn)換
4.3 json文件
4.3.1 json文件簡(jiǎn)介
4.3.2 json文件的讀寫(xiě)
4.5 MySQL數(shù)據(jù)庫(kù)
4.5.1 MySQL的配置
4.5.2元組與列表方式讀寫(xiě)MySQL
4.5.3 字典方式讀寫(xiě)MySQL
4.6 網(wǎng)頁(yè)數(shù)據(jù)清洗與存儲(chǔ)綜合應(yīng)用
第5章 Scrapy框架
5.1 Scray工作機(jī)制
5.2 Scrapy的安裝與入門(mén)
5.2.1 安裝環(huán)境
5.2.2 Scrapy框架部件功能介紹
5.3編寫(xiě)Scrapy爬蟲(chóng)
5.3.1 Scrapy框架模式編寫(xiě)bs4中的綜合應(yīng)用程序
5.3.2 綜合應(yīng)用實(shí)戰(zhàn)
第6章 動(dòng)態(tài)網(wǎng)頁(yè)爬取
6.1 JavaScript與AJAX技術(shù)
6.1.1 JavaScript語(yǔ)言
6.1.2 AJAX
6.2抓取AJAX數(shù)據(jù)
6.2.1分析數(shù)據(jù)
6.2.2提取數(shù)據(jù)
6.2.3 綜合實(shí)戰(zhàn)(爬取起點(diǎn)中文網(wǎng)信息寫(xiě)入txt文件)
6.3 抓取動(dòng)態(tài)內(nèi)容
6.3.1動(dòng)態(tài)渲染頁(yè)面
6.3.2使用Selenium
6.3.3 綜合實(shí)戰(zhàn)
第7章 數(shù)據(jù)可視化
7.1 pandas 應(yīng)用
7.2 matplotlib應(yīng)用
7.3 pyecharts 應(yīng)用