本書將圍繞“市場競爭數(shù)據(jù)調研”這一項目需求進行講解,開篇將該需求拆解為全網(wǎng)市場數(shù)據(jù)概覽、京東市場數(shù)據(jù)調研、蘇寧市場數(shù)據(jù)調研等幾部分。文稿除開篇外分5個項目,項目一至項目三將講解網(wǎng)絡爬蟲相關理論及實操。其中項目一以全網(wǎng)電商市場數(shù)據(jù)初步采集為主線,描述如何掌握以網(wǎng)絡爬蟲技術為基礎的多個網(wǎng)站、平臺數(shù)據(jù)采集分析工具的使用。項目二利用八爪魚數(shù)據(jù)采集器采集京東商城商品數(shù)據(jù)(價格、銷量、評價等數(shù)據(jù)),描述如何掌握利用八爪魚完成網(wǎng)頁數(shù)據(jù)采集技能。項目三則將利用Python網(wǎng)絡爬蟲進行蘇寧商城市場競爭數(shù)據(jù)采集,描述如何掌握Python網(wǎng)絡爬蟲中常用的庫及技巧。項目四、五則是數(shù)據(jù)采集后的數(shù)據(jù)操作,項目四講述選擇合理的方式將采集數(shù)據(jù)進行存儲,項目五則講述如何將雜亂有誤的數(shù)據(jù)進行規(guī)范。本書可作為高職高專院校電子商務、市場營銷等商科專業(yè)的教材,也可作為即將進入數(shù)據(jù)分析行業(yè)初學者的技能學習讀本。
朱景偉,男,講師,就職于義烏工商職業(yè)技術學院,商務數(shù)據(jù)分析與應用專業(yè)副主任,主要承擔《商務數(shù)據(jù)采集》、《數(shù)據(jù)化營銷》、《商務數(shù)據(jù)與應用基礎》、《商務數(shù)據(jù)分析技術》、《電子商務大賽模擬軟件》的教學工作
開?篇
項目一 平臺類數(shù)據(jù)工具使用
任務1.1 指數(shù)類數(shù)據(jù)工具——百度指數(shù)
【基礎知識】
一、趨勢研究
二、需求圖譜
三、人群畫像
【任務實施】
【思考題】
任務1.2 電商平臺數(shù)據(jù)工具——生意參謀
【基礎知識】
一、首頁
二、實時概況
三、流量和品類
四、交易和服務
五、市場
【任務實施】
【思考題】
任務1.3 插件類數(shù)據(jù)工具——店偵探
【基礎知識】
一、店偵探簡介
二、店偵探插件安裝及使用
【任務實施】
一、店偵探插件數(shù)據(jù)采集
二、店偵探競店數(shù)據(jù)采集
【思考題】
任務1.4 新媒體類數(shù)據(jù)工具——飛瓜
【基礎知識】
【任務實施】
【思考題】
項目二 網(wǎng)絡數(shù)據(jù)采集器使用
任務2.1 京東產品信息試采——八爪魚基礎教程
【基礎知識】
一、HTTP請求響應過程
二、爬蟲的基本原理
三、八爪魚介紹
【任務實施】
一、八爪魚簡易模式的使用
二、八爪魚自定義模式的使用
【思考題】
任務2.2 京東評論內容采集——Ajax
【基礎知識】
【任務實施】
【思考題】
任務2.3 京東評論內容修正——XPath
【基礎知識】
一、XPath概念
二、查看和調試XPath
三、XPath表達式
【任務實施】
【思考題】
任務2.4 京東評論圖片采集——正則表達式
【基礎知識】
【任務實施】
【思考題】
任務2.5 用戶登錄模式采集——自定義Cookie
【基礎知識】
一、靜態(tài)網(wǎng)頁和動態(tài)網(wǎng)頁
二、無狀態(tài)HTTP
三、Cookie
四、Session
五、Cookie屬性結構
【任務實施】
【思考題】
項目三 蘇寧市場競爭數(shù)據(jù)采集
任務3.1 蘇寧請求流程分析——Chrome&Postman
【基礎知識】
一、打開Chrome開發(fā)者工具
二、 Elements
三、 Network
【任務實施】
一、搜索結果列表頁分析
二、蘇寧產品詳情頁參數(shù)分析
三、蘇寧產品評論參數(shù)分析
【思考題】
任務3.2 蘇寧產品列表請求——Requests庫的使用
【基礎知識】
一、基本用法
二、高級用法
【任務實施】
【思考題】
任務3.3 列表響應數(shù)據(jù)提取——lxml&RE庫
【基礎知識】
一、lxml庫
二、RE庫
【任務實施】
一、蘇寧產品URL提取
二、蘇寧clusterId提取
【思考題】
任務3.4 評論響應數(shù)據(jù)輸出——JSON
【基礎知識】
一、JSON基礎知識
二、JSON用法
【任務實施】
【思考題】
任務3.5 蘇寧用戶賬號登錄——Selenium&ChromeDriver
【基礎知識】
一、環(huán)境配置
二、基礎用法
【任務實施】
【思考題】
項目四 采集數(shù)據(jù)存儲
任務4.1 最簡單的文件型存儲——Excel、CSV文件
【基礎知識】
一、Excel文件
二、CSV文件
【任務實施】
一、使用Excel存儲數(shù)據(jù)
二、使用CSV存儲數(shù)據(jù)
三、Excel與CSV文件互轉
【思考題】
任務4.2 最普通的關系型數(shù)據(jù)庫——MySQL
【基礎知識】
一、MySQL認知
二、MySQL的安裝
三、MySQL可視化客戶端的使用
【任務實施】
一、MySQL數(shù)據(jù)庫的數(shù)據(jù)操作
二、MySQL數(shù)據(jù)庫與Excel文件的交互
【思考題】
任務4.3 最潮流的分布式數(shù)據(jù)庫——MongoDB
【基礎知識】
一、MongoDB認知
二、MongoDB的安裝
三、MongoDB可視化客戶端的使用
【任務實施】
【思考題】
項目五 數(shù)據(jù)清洗
任務5.1 數(shù)據(jù)規(guī)范處理——表格規(guī)范
【基礎知識】
一、數(shù)據(jù)類型
二、一維表vs二維表
【任務實施】
一、數(shù)據(jù)類型轉換
二、數(shù)據(jù)結構轉換
【思考題】
任務5.2 錯誤數(shù)據(jù)處理——查錯補缺
【基礎知識】
【任務實施】
一、缺失值處理
二、重復值處理
三、邏輯錯誤處理
【思考題】
任務5.3 文本數(shù)據(jù)處理——文本操作
【基礎知識】
【任務實施】
一、查找替換
二、單元格特殊字符去除
三、文本數(shù)據(jù)提取
【思考題】
任務5.4 無序數(shù)據(jù)處理——篩選排序
【基礎知識】
一、邏輯“與”“或”“非”
二、排序依據(jù)
【任務實施】
一、數(shù)據(jù)篩選
二、數(shù)據(jù)排序
【思考題】
任務5.5 數(shù)據(jù)分合處理——拆分合并
【基礎知識】
【任務實施】
一、數(shù)據(jù)拆分
二、數(shù)據(jù)合并
三、合并單元格拆分
【思考題】
參考文獻