網(wǎng)絡(luò)數(shù)據(jù)爬取與分析實(shí)務(wù)
定 價(jià):68 元
- 作者:李周平 著
- 出版時(shí)間:2018/9/1
- ISBN:9787313200327
- 出 版 社:上海交通大學(xué)出版社
- 中圖法分類:TP311.561
- 頁(yè)碼:
- 紙張:特種紙
- 版次:1
- 開(kāi)本:16開(kāi)
本書(shū)按照網(wǎng)絡(luò)數(shù)據(jù)爬取、數(shù)據(jù)清洗與處理、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)分析的邏輯脈絡(luò),介紹了數(shù)據(jù)科學(xué)的相關(guān)知識(shí)。
全書(shū)主要內(nèi)容涉及理論、實(shí)戰(zhàn)、工具三個(gè)層面。其中,理論層面主要介紹了網(wǎng)絡(luò)爬蟲(chóng),數(shù)據(jù)處理與存儲(chǔ),機(jī)器學(xué)習(xí)的相關(guān)概念、原理與算法;實(shí)戰(zhàn)層面主要通過(guò)影評(píng)、二手房、招聘網(wǎng)站等實(shí)戰(zhàn)項(xiàng)目,闡述了數(shù)據(jù)爬取、處理與存儲(chǔ)的代碼實(shí)現(xiàn),并通過(guò)相關(guān)數(shù)據(jù)集的實(shí)例,介紹了機(jī)器學(xué)習(xí)算法的實(shí)現(xiàn)與效果評(píng)估;工具層面主要講解了如何通過(guò)Python的Urllib、Request、BeautifulSoup、Pandas、Scikit-learn等第三方工具包實(shí)現(xiàn)數(shù)據(jù)的爬取、處理與分析,以及通過(guò)SQLite這一輕量級(jí)數(shù)據(jù)庫(kù)工具實(shí)現(xiàn)數(shù)據(jù)的存儲(chǔ)。
本書(shū)系“電子商務(wù)應(yīng)用型專業(yè)系列教材”叢書(shū)。根據(jù)市場(chǎng)需求,該叢書(shū)重新梳理了電子商務(wù)應(yīng)用型人才所需的能力,以電商運(yùn)營(yíng)能力、數(shù)據(jù)分析能力和移動(dòng)應(yīng)用設(shè)計(jì)開(kāi)發(fā)能力為核心,學(xué)生可根據(jù)自身興趣愛(ài)好和擅長(zhǎng)點(diǎn)進(jìn)行自身能力的培養(yǎng)。
本書(shū)以校企合作的方式進(jìn)行教材的編寫。通過(guò)與企業(yè)合作,吸收企業(yè)的行業(yè)經(jīng)驗(yàn)和實(shí)際案例,既提高了教材內(nèi)容的實(shí)踐性,又幫助企業(yè)把隱性知識(shí)固化為顯性知識(shí)。
該叢書(shū)包括:1.《跨境電子商務(wù)實(shí)務(wù)》
2.《跨平臺(tái)移動(dòng)商務(wù)網(wǎng)站技術(shù)及其應(yīng)用》
3.《網(wǎng)絡(luò)數(shù)據(jù)爬取與分析實(shí)務(wù)》
4.《移動(dòng)商務(wù)實(shí)用教程》
李周平
上海財(cái)經(jīng)大學(xué)博士,網(wǎng)絡(luò)與軟件工程師,現(xiàn)任上海商學(xué)院信息與計(jì)算機(jī)學(xué)院教師。長(zhǎng)期從事網(wǎng)絡(luò)爬蟲(chóng)、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、自然語(yǔ)言處理、Python程序開(kāi)發(fā)等方面的教學(xué)和培訓(xùn)工作,具有十余年的Python項(xiàng)目開(kāi)發(fā)經(jīng)驗(yàn),獲得多項(xiàng)軟件專利。
第1章 數(shù)據(jù)科學(xué)概述
1.1什么是數(shù)據(jù)科學(xué)
1.2數(shù)據(jù)分析師、數(shù)據(jù)工程師與數(shù)據(jù)科學(xué)家
第2章Python語(yǔ)法基礎(chǔ)
2.1 Python的程序結(jié)構(gòu)
2.2 Python編碼規(guī)范
2.3 Python編程環(huán)境的搭建
2.4 Python的數(shù)據(jù)結(jié)構(gòu)
2.5 Python控制語(yǔ)句
習(xí)題
第3章 使用Urllib庫(kù)編寫爬蟲(chóng)
3.1 網(wǎng)絡(luò)爬蟲(chóng)概述
3.2 使用Urllib.request模塊編寫爬蟲(chóng)
3.3 修改User-Agent屬性模擬瀏覽器訪問(wèn)
3.4 HTTP協(xié)議詳解
3.5 模擬HTTP-GET方法的爬蟲(chóng)
3.6 模擬HTTP-POST方法的爬蟲(chóng)
習(xí)題
第4章 使用正則表達(dá)式提取數(shù)據(jù)
4.1 正則表達(dá)式原理
4.2 正則表達(dá)式語(yǔ)法
4.3 re模塊常用的函數(shù)
4.4 正則表達(dá)式應(yīng)用實(shí)例
習(xí)題
第5章 使用BeautifulSoup庫(kù)提取數(shù)據(jù)
5.1 BeautifulSoup包簡(jiǎn)介
5.2 BeautifulSoup的信息提取
5.3 BeautifulSoup的遍歷
習(xí)題
第6章 爬蟲(chóng)項(xiàng)目實(shí)戰(zhàn)
6.1網(wǎng)易新聞中心爬蟲(chóng)
6.2 通過(guò)Session模擬登錄豆瓣
6.3 鏈家二手房信息爬蟲(chóng)
6.4爬取拉勾網(wǎng)JSON格式數(shù)據(jù)
習(xí)題
第7章 Pandas數(shù)據(jù)處理基礎(chǔ)
7.1數(shù)據(jù)處理概述
7.2 Pandas數(shù)據(jù)結(jié)構(gòu)
7.3 DataFrame的基本操作
7.4 DataFrame數(shù)據(jù)的連接
7.4 Pandas數(shù)據(jù)輸入輸出
習(xí)題
第8章 Pandas數(shù)據(jù)處理常用方法
8.1 分組統(tǒng)計(jì)與轉(zhuǎn)換
8.2 缺失值處理
8.3 時(shí)間序列數(shù)據(jù)處理
8.4 向量轉(zhuǎn)換
習(xí)題
第9章 數(shù)據(jù)處理實(shí)戰(zhàn)
9.1二手房數(shù)據(jù)處理
9.2 職位數(shù)據(jù)處理
9.3 職位描述的文本信息處理
習(xí)題
第10章 SQLite數(shù)據(jù)庫(kù)操作
10.1 SQLite數(shù)據(jù)庫(kù)簡(jiǎn)介
10.2 Python讀寫SQLite
10.3 Pandas讀寫SQLite
習(xí)題
第11章 機(jī)器學(xué)習(xí)概述
11.1 認(rèn)識(shí)機(jī)器學(xué)習(xí)
11.2 機(jī)器學(xué)習(xí)的應(yīng)用范圍
11.3 機(jī)器學(xué)習(xí)的算法
11.4 Scikit-learn機(jī)器學(xué)習(xí)包
習(xí)題
第12章 從線性回歸到分類
12.1線性回歸算法
12.2 邏輯回歸分類算法
習(xí)題
第13章 分類模型及應(yīng)用
13.1 K近鄰分類算法
13.2 決策樹(shù)分類算法
13.3 隨機(jī)森林分類算法
習(xí)題
第14章 分類模型的評(píng)估
14.1訓(xùn)練與測(cè)試樣本
14.2 性能評(píng)價(jià)指標(biāo)
14.3分類閾值的調(diào)整
習(xí)題
參考文獻(xiàn)