Python數(shù)據(jù)處理、分析、可視化與數(shù)據(jù)化運營
定 價:49.8 元
- 作者:宋天龍
- 出版時間:2020/8/1
- ISBN:9787115527592
- 出 版 社:人民郵電出版社
- 中圖法分類:TP311.561
- 頁碼:300
- 紙張:
- 版次:01
- 開本:16開
本書的編寫主要圍繞Python在企業(yè)中的數(shù)據(jù)分析工作實踐,著眼于構(gòu)建完整的數(shù)據(jù)分析框架、方法和技能的培養(yǎng)和訓(xùn)練。全書共10章,其中第1章和第2章介紹了進行Python數(shù)據(jù)分析的準備工作和Python基礎(chǔ)知識;第3~9章介紹了數(shù)據(jù)對象的讀寫、數(shù)據(jù)清洗和預(yù)處理、數(shù)據(jù)可視化、基本數(shù)據(jù)統(tǒng)計分析和高級數(shù)據(jù)建模分析、自然語言理解和文本挖掘、數(shù)據(jù)分析部署和應(yīng)用等完整工作技能和方法;第10章介紹了數(shù)據(jù)分析在數(shù)據(jù)化運營中的完整應(yīng)用思路、維度和框架。本書內(nèi)容深入淺出,均以企業(yè)真實需求引導(dǎo)學(xué)習(xí),具有很強的實用性和操作性。
本書可以作為普通高等院校本科、?平y(tǒng)計、商務(wù)分析、大數(shù)據(jù)等專業(yè)的課程教材,也可以作為從事數(shù)據(jù)分析工作的人員的參考用書。
1.作者經(jīng)驗豐富。本書作者在數(shù)據(jù)分析領(lǐng)域工作10年,擁有大量的數(shù)據(jù)分析經(jīng)驗、案例、場景和方法,并且在數(shù)據(jù)分析領(lǐng)域頗有口碑。
2.結(jié)構(gòu)合理,層次清晰。本書內(nèi)容圍繞數(shù)據(jù)分析展開,能將數(shù)據(jù)分析工作流程介紹清楚且完整、有用、實用,不僅能幫助讀者學(xué)到所學(xué)知識,更能幫助讀者快速用到數(shù)據(jù)分析實踐中。
3.案例與實訓(xùn)豐富。本書不僅提供專業(yè)的理論知識,而且配有案例和課后實訓(xùn),幫助讀者快速了解Python數(shù)據(jù)分析知識。
宋天龍(TonySong),歷任Webtrekk中國區(qū)數(shù)據(jù)總監(jiān)(Webtrekk,德國最大的網(wǎng)站數(shù)據(jù)分析服務(wù)提供商),國美在線大數(shù)據(jù)中心經(jīng)理,數(shù)據(jù)常青藤和數(shù)據(jù)研究與商業(yè)應(yīng)用博主。蘿卜課堂和天善學(xué)院特邀講師,百度文庫認證作家、36大數(shù)據(jù)、站長之家、互聯(lián)網(wǎng)分析沙龍專欄作家。
第 1章 認識Python 1
1.1 Python與數(shù)據(jù)分析 1
1.1.1 Python的概念 1
1.1.2 數(shù)據(jù)分析與Python 2
1.2 如何準備Python程序環(huán)境 2
1.2.1 如何安裝Python程序 2
1.2.2 如何安裝第三方庫 3
1.3 Python數(shù)據(jù)分析庫 5
1.3.1 Pandas 5
1.3.2 Scipy 5
1.3.3 Numpy 5
1.3.4 Scikit-Learn 6
1.3.5 Statsmodels 6
1.3.6 Gensim 6
1.4 Python交互環(huán)境Jupyter 6
1.4.1 啟動Jupyter 7
1.4.2 Jupyter的功能區(qū) 7
1.4.3 Jupyter的常用操作 8
1.4.4 Jupyter的魔術(shù)命令 11
1.4.5 Jupyter的配置 13
1.5 執(zhí)行第 一個Python程序 14
1.6 新手常見誤區(qū) 16
1.6.1隨意升級庫到最新版本 16
1.6.2糾結(jié)于使用Python2還是Python3 16
1.6.3 糾結(jié)于選擇32位還是64位版本 16
實訓(xùn):打印自己的名字 17
思考與練習(xí) 17
第 2章 Python語言基礎(chǔ) 18
2.1 基礎(chǔ)規(guī)則 18
2.1.1 Python解釋器 18
2.1.2 編碼聲明 18
2.1.3 縮進和執(zhí)行域 18
2.1.4 長語句斷行 19
2.1.5 單行和多行注釋 19
2.1.6 變量的命名和賦值規(guī)則 20
2.2 數(shù)據(jù)類型 20
2.2.1 數(shù)字型數(shù)據(jù) 21
2.2.2字符型數(shù)據(jù) 21
2.2.3 日期型數(shù)據(jù) 22
2.2.4 數(shù)據(jù)類型的判斷與轉(zhuǎn)換 22
2.3 數(shù)據(jù)結(jié)構(gòu) 24
2.3.1 列表和列表推導(dǎo)式 24
2.3.2 元組和元組推導(dǎo)式 27
2.3.3 字典和字典推導(dǎo)式 28
2.3.4 集合和集合推導(dǎo)式 30
2.3.5 數(shù)據(jù)結(jié)構(gòu)的判斷與轉(zhuǎn)換 32
2.4 條件表達式與判斷 33
2.4.1 單層條件判斷 33
2.4.2 嵌套條件判斷 33
2.4.3 多條件判斷中的and和or 34
2.4.4 多條件判斷中的鏈式比較、all和any 34
2.4.5 基于條件表達式的賦值 35
2.5 循環(huán)和流程控制 35
2.5.1 for循環(huán)和條件表達式 35
2.5.2 while循環(huán)和條件表達式 36
2.5.3 循環(huán)嵌套 36
2.5.4 無限循環(huán) 36
2.5.5 break和continue控制 36
2.6 運算符 37
2.6.1 算術(shù)運算符 37
2.6.2 賦值運算符 38
2.6.3 比較運算符 39
2.6.4 邏輯運算符 39
2.6.5 成員運算符 39
2.6.6 身份運算符 40
2.6.7 運算符優(yōu)先級 40
2.7 字符串處理和正則表達式 41
2.7.1 字符串格式化的3種方法 41
2.7.2 字符串的編譯執(zhí)行 43
2.7.3 內(nèi)置字符串處理方法 44
2.7.4 正則表達式應(yīng)用 46
2.8 功能模塊的封裝 49
2.8.1 函數(shù) 49
2.8.2 匿名函數(shù) 50
2.8.3 類 51
2.9 高階計算函數(shù)的應(yīng)用 53
2.9.1 map 53
2.9.2 reduce 53
2.9.3 filter 54
2.10 導(dǎo)入Python庫 55
2.10.1 導(dǎo)入標準庫和第三方庫 55
2.10.2 導(dǎo)入自定義庫 56
2.10.3 使用庫的別名 56
2.10.4 不同庫的導(dǎo)入順序 57
2.11 Pandas庫基礎(chǔ) 57
2.11.1 創(chuàng)建數(shù)據(jù)對象 57
2.11.2 查看數(shù)據(jù)信息 58
2.11.3 數(shù)據(jù)切片和切塊 59
2.11.4 數(shù)據(jù)篩選和過濾 60
2.11.5 數(shù)據(jù)預(yù)處理操作 61
2.11.6 數(shù)據(jù)合并和匹配 63
2.11.7 數(shù)據(jù)分類匯總 64
2.11.8 高級函數(shù)使用 64
2.12 新手常見誤區(qū) 65
2.12.1 錯誤的縮進導(dǎo)致功能范圍混亂 65
2.12.2 混淆賦值和條件判斷符號 65
2.12.3 列表長度與初始索引、終止索引誤用 66
2.12.4 表達式或功能缺少冒號 66
2.12.5 變量名的沖突問題 66
2.12.6 混淆int和round對浮點數(shù)的取整 67
實訓(xùn):對列表中的元素按不同邏輯處理 67
思考與練習(xí) 68
第3章 數(shù)據(jù)對象的讀寫 69
3.1 目錄與文件操作 69
3.1.1 獲取目錄信息 69
3.1.2 目錄的基本操作 70
3.1.3 路徑與目錄的組合與拆分 72
3.1.4 目錄的判斷 72
3.1.5 遍歷目錄 73
3.1.6 文件的基本操作 74
3.2數(shù)據(jù)文件的讀取與寫入 75
3.2.1 讀寫普通文件 75
3.2.2 讀寫csv、txt、tsv等數(shù)據(jù)文件 79
3.2.3 讀寫Excel文件 83
3.2.4 讀寫JSON文件 86
3.2.5 讀寫XML文件 88
3.2.6 讀寫SPSS Statistics /SAS/Stata數(shù)據(jù)文件 90
3.2.7 讀寫R數(shù)據(jù)文件 94
3.3數(shù)據(jù)庫的讀取與寫入 96
3.3.1讀寫結(jié)構(gòu)化數(shù)據(jù)庫MySQL 96
3.3.2讀寫非結(jié)構(gòu)化數(shù)據(jù)庫MongoDB 101
3.4 數(shù)據(jù)對象持久化 103
3.4.1使用pickle讀寫持久化對象 103
3.4.2使用sklearn讀寫持久化對象 104
3.5 新手常見誤區(qū) 105
3.5.1 不注意工作路徑導(dǎo)致無法找到文件 105
3.5.2 忽視不同操作系統(tǒng)下路徑的表示方法問題 105
3.5.3 文件對象未正常關(guān)閉導(dǎo)致數(shù)據(jù)或程序異!105
3.5.4 pickle讀寫對象無法執(zhí)行read和write方法 106
3.5.5 默認讀取的多段落數(shù)據(jù)末尾有\(zhòng)n而不處理 106
3.5.6 文件write寫入的對象不是字符串 107
實訓(xùn):多條件數(shù)據(jù)庫讀寫操作 107
思考與練習(xí) 108
第4章 數(shù)據(jù)清洗和預(yù)處理 109
4.1 數(shù)據(jù)審核 109
4.1.1 查看數(shù)據(jù)狀態(tài) 109
4.1.2 審核數(shù)據(jù)類型 109
4.1.3 分析數(shù)據(jù)分布趨勢 110
4.2 缺失值處理 111
4.2.1 查看缺失值記錄 111
4.2.2 查看缺失值列 112
4.2.3 NA值處理 112
4.3 異常值處理 113
4.3.1 基于經(jīng)驗值的判斷和選擇 113
4.3.2 基于均值標準差的判斷和選擇 114
4.3.3 基于分位數(shù)的判斷和選擇 115
4.4 重復(fù)值處理 115
4.4.1 判斷缺失值 116
4.4.2 去除重復(fù)值 116
4.5 數(shù)據(jù)抽樣 116
4.5.1 隨機抽樣 116
4.5.2 分層抽樣 116
4.6 數(shù)據(jù)格式與值變換 117
4.6.1 字符串轉(zhuǎn)日期 117
4.6.2 提取日期和時間 118
4.6.3 提取時間元素 118
4.7 數(shù)據(jù)標準化和歸一化 120
4.7.1 Z-SCORE數(shù)據(jù)標準化 120
4.7.2 MaxMin數(shù)據(jù)歸一化 121
4.8 數(shù)據(jù)離散化和二元化 121
4.8.1 基于自定義區(qū)間的離散化 121
4.8.2 基于分位數(shù)法離散化 122
4.8.3 基于指定條件的二元化 122
4.9 分類特征處理 123
4.9.1 分類特征轉(zhuǎn)數(shù)值索引 123
4.9.2 OneHotencode 轉(zhuǎn)換 124
4.10 特征選擇 124
4.11 分詞 125
4.12 文本轉(zhuǎn)向量 127
4.13 新手常見誤區(qū) 127
4.13.1 沒有先做NA值處理導(dǎo)致后續(xù)清洗工作頻繁報錯 127
4.13.2 直接拋棄異常值 128
4.13.3 用數(shù)值索引代替分類字符串參與模型計算 128
4.13.4 使用分位數(shù)法離散化并做不同周期的數(shù)據(jù)對比 128
4.13.5 把抽樣當作一個必備工作環(huán)節(jié) 129
實訓(xùn):綜合性數(shù)據(jù)預(yù)處理 129
思考與練習(xí) 130
第5章 數(shù)據(jù)可視化 131
5.1 可視化應(yīng)用概述 131
5.1.1 常用數(shù)據(jù)可視化庫 131
5.1.2 如何選擇恰當?shù)目梢暬绞健?32
5.2 簡單數(shù)據(jù)信息的可視化 133
5.2.1 使用條形圖和柱形圖表達數(shù)據(jù)差異 134
5.2.2 使用折線圖和柱形圖展示趨勢 136
5.2.3 使用餅圖和面積圖展示成分或結(jié)構(gòu)信息 138
5.2.4 使用散點圖或蜂窩圖展示數(shù)據(jù)間關(guān)系 141
5.3 復(fù)雜數(shù)據(jù)信息的可視化 142
5.3.1 使用成對關(guān)系圖對多組數(shù)據(jù)同時做關(guān)系可視化 142
5.3.2 使用帶回歸擬合線的散點圖做回歸擬合的可視化 143
5.3.3 使用熱力圖做相關(guān)關(guān)系可視化 144
5.3.4 使用日歷圖展示不同時間下的銷售分布 145
5.3.5 使用箱型圖和散點圖查看數(shù)據(jù)分布規(guī)律 146
5.3.6 使用分類柱形圖展示多個維度細分值分布 147
5.3.7 使用等高線繪制核密度分布 148
5.3.8 使用坡度圖繪制數(shù)據(jù)變化差異 149
5.3.9 使用漏斗圖展示不同轉(zhuǎn)化環(huán)節(jié)的完成情況 150
5.3.10 使用關(guān)系圖展示不同元素見的關(guān)聯(lián)關(guān)系 151
5.3.11 使用雷達圖展示多個元素在不同屬性上的差異 153
5.3.12 用詞云展示關(guān)鍵字分布 154
5.4 新手常見誤區(qū) 155
5.4.1 沒有明確的可視化目標 155
5.4.2 通過特殊圖形設(shè)置誤導(dǎo)受眾 156
5.4.3 選擇過于“花哨”的圖形卻忽略了可視化的本質(zhì) 156
5.4.4 缺乏根據(jù)信息表達目標選擇“最佳”圖形的意識 156
5.4.5 信息過載 156
實訓(xùn):綜合性數(shù)據(jù)可視化 157
思考與練習(xí) 157
第6章 基本數(shù)據(jù)統(tǒng)計分析 159
6.1 描述性統(tǒng)計分析 159
6.1.1 通用描述信息 160
6.1.2 集中性趨勢 161
6.1.3 離散性趨勢 162
6.2 交叉對比和趨勢分析 163
6.2.1 交叉對比分析 163
6.2.2 交叉趨勢分析 164
6.3 結(jié)構(gòu)與貢獻分析 165
6.3.1 占比分析 166
6.3.2 二八法則分析 166
6.3.3 ABC分析法 168
6.3.4 長尾分析 170
6.4 分組與聚合分析 171
6.4.1 使用分位數(shù)聚合分析 171
6.4.2 基于均值和標準差的聚合分析 172
6.5 相關(guān)性分析 173
6.5.1 Pearson相關(guān)性分析 173
6.5.2 Spearman相關(guān)性分析 174
6.5.3 Kendall相關(guān)性分析 175
6.6 主成分分析與因子分析 175
6.6.1 主成分分析 176
6.6.2 因子分析 177
6.7 漏斗、路徑與歸因分析 178
6.7.1 漏斗分析 178
6.7.2 路徑分析 179
6.7.3 歸因分析 179
6.8 新手常見誤區(qū) 181
6.8.1 把數(shù)據(jù)陳述當作數(shù)據(jù)結(jié)論 181
6.8.2 通過單一指標得出數(shù)據(jù)結(jié)論 181
6.8.3 注重分析過程但沒有分析結(jié)論 182
6.8.4 忽視數(shù)據(jù)分析的落地性 182
實訓(xùn):基本數(shù)據(jù)統(tǒng)計分析思維訓(xùn)練 182
思考與練習(xí) 183
第7章 高級數(shù)據(jù)建模分析 184
7.1使用KMeans聚類算法挖掘用戶潛在特征 184
7.1.1 算法引言 184
7.1.2 案例背景 185
7.1.3 數(shù)據(jù)源概述 185
7.1.4 案例過程 185
7.1.5 用戶特征分析 189
7.2 使用CART預(yù)測用戶是否會產(chǎn)生轉(zhuǎn)化 189
7.2.1 算法引言 189
7.2.2 案例背景 190
7.2.3 數(shù)據(jù)源概述 190
7.2.4 案例過程 191
7.2.5 分析用戶的轉(zhuǎn)化可能性 194
7.3 使用主成分分析+嶺回歸預(yù)測廣告UV量 195
7.3.1 算法引言 195
7.3.2 案例背景 196
7.3.3 數(shù)據(jù)源概述 196
7.3.4 案例過程 196
7.3.5 獲得廣告UV量 200
7.3.6 拓展思考 201
7.4 使用Apriori關(guān)聯(lián)分析提高商品銷量 201
7.4.1 算法引言 201
7.4.2 案例背景 202
7.4.3 數(shù)據(jù)源概述 202
7.4.4 案例過程 202
7.4.5 通過關(guān)聯(lián)分析結(jié)果提高銷量 207
7.5 使用Prefixspan序列關(guān)聯(lián)找到用戶下一個訪問頁面 207
7.5.1 算法引言 207
7.5.2 案例背景 208
7.5.3 數(shù)據(jù)源概述 208
7.5.4 案例過程 208
7.5.5 通過序列模式引導(dǎo)用戶頁面訪問行為 212
7.5.6 拓展思考 213
7.6 使用auto ARIMA時間序列預(yù)測線下門店銷量 213
7.6.1 算法引言 213
7.6.2 案例背景 214
7.6.3 數(shù)據(jù)源概述 214
7.6.4 案例過程 215
7.6.5 得到未來7天的銷售量 220
7.7 使用IsolationForest異常檢測找到異常廣告流量 220
7.7.1 算法引言 220
7.7.2 案例背景 221
7.7.3 數(shù)據(jù)源概述 222
7.7.4 案例過程 224
7.7.5 分析異常檢測結(jié)果 227
7.8 新手常見誤區(qū) 229
7.8.1 認為某種算法適用于所有應(yīng)用場景 229
7.8.2 并不是模型擬合程度越高效果越好 230
7.8.3 應(yīng)用回歸模型時忽略自變量是否產(chǎn)生變化 230
7.8.4 關(guān)聯(lián)分析可以跨維度做分析 231
7.8.5 很多時候模型得到的異常未必是真的異常 231
實訓(xùn) 231
實訓(xùn)1 預(yù)測用戶是否流失 231
實訓(xùn)2 預(yù)測目標用戶的總訂單金額 232
實訓(xùn)3 找到整體用戶頻繁購買的商品 233
思考與練習(xí) 233
第8章 自然語言理解和文本挖掘 234
8.1 使用結(jié)巴分詞提取用戶評論關(guān)鍵字 234
8.1.1 算法引言 234
8.1.2 案例背景 235
8.1.3 數(shù)據(jù)源概述 235
8.1.4 案例過程 235
8.1.5 分析用戶評論關(guān)鍵字 238
8.2 使用LDA主題模型做新聞主題分析 239
8.2.1 算法引言 239
8.2.2 案例背景 240
8.2.3 數(shù)據(jù)源概述 240
8.2.4 案例過程 240
8.2.5 分析主題結(jié)果 242
8.3 使用隨機森林預(yù)測用戶評分傾向 244
8.3.1 算法引言 244
8.3.2 案例背景 245
8.3.3 數(shù)據(jù)源概述 245
8.3.4 案例過程 245
8.3.5 預(yù)測新用戶的評分 248
8.4 使用TextRank自動生成文章摘要和關(guān)鍵短語 249
8.4.1 算法引言 249
8.4.2 案例背景 250
8.4.3 數(shù)據(jù)源概述 250
8.4.4 案例過程 250
8.5 新手常見誤區(qū) 252
8.5.1 混淆中文分詞與英文分詞引擎 252
8.5.2 只用詞頻計算詞的重要性 252
8.5.3 忽略文本預(yù)處理環(huán)節(jié) 253
實訓(xùn):提取關(guān)鍵字、關(guān)鍵短語和摘要信息 253
思考與練習(xí) 254
第9章 數(shù)據(jù)分析部署和應(yīng)用 255
9.1 批量合并數(shù)據(jù)文件 255
9.1.1 應(yīng)用背景 255
9.1.2 工作需求 255
9.1.3 實現(xiàn)過程 256
9.2 從數(shù)據(jù)庫中抽取數(shù)據(jù)并生成結(jié)果文件 259
9.2.1 應(yīng)用背景 259
9.2.2 工作需求 260
9.2.3 實現(xiàn)過程 260
9.3 發(fā)送普通Email并附帶數(shù)據(jù)文件 264
9.3.1 應(yīng)用背景 264
9.3.2 工作需求 264
9.3.3 實現(xiàn)過程 265
9.4 發(fā)送HTML富媒體樣式的郵件 269
9.4.1 應(yīng)用背景 269
9.4.2 工作需求 269
9.4.3 實現(xiàn)過程 269
9.5 系統(tǒng)自動執(zhí)行Python腳本和數(shù)據(jù)任務(wù) 272
9.5.1 應(yīng)用背景 272
9.5.2 工作需求 272
9.5.3 實現(xiàn)過程 272
9.6 新手常見誤區(qū) 277
9.6.1 不注重自動化的工作方式 277
9.6.2 數(shù)據(jù)輸出物的美觀度也是一種數(shù)據(jù)價值 278
9.6.3 缺乏對自動化作業(yè)任務(wù)的監(jiān)控 278
實訓(xùn):將日常發(fā)送郵件工作自動化 278
思考與練習(xí) 279
第 10章 數(shù)據(jù)分析與數(shù)據(jù)化運營 280
10.1 數(shù)據(jù)報告矩陣 280
10.1.1 臨時分析 280
10.1.2 實時分析 280
10.1.3 日常報告 281
10.1.4 專題分析 282
10.1.5 項目分析 282
10.2 分析指標矩陣 283
10.2.1 會員運營 283
10.2.2 商品運營 284
10.2.3 廣告運營 285
10.2.4 網(wǎng)站運營 286
10.3 探索維度矩陣 286
10.3.1 目標端 286
10.3.2 媒體端 287
10.3.3 用戶端 288
10.3.4 網(wǎng)站端 289
10.3.5 競爭端 289
10.4 應(yīng)用場景矩陣 290
10.4.1 效果預(yù)測 290
10.4.2 結(jié)論定義 290
10.4.3 數(shù)據(jù)探究 291
10.4.4 業(yè)務(wù)執(zhí)行 291
10.5 新手常見誤區(qū) 292
10.5.1 把數(shù)據(jù)陳列當作數(shù)據(jù)結(jié)論 292
10.5.2 數(shù)據(jù)結(jié)論產(chǎn)生于單一指標 292
10.5.3 由數(shù)據(jù)立場扭曲的數(shù)據(jù)結(jié)論 293
10.5.4 忽視多種數(shù)據(jù)落地方式 293
實訓(xùn):搭建針對企業(yè)的數(shù)據(jù)化運營應(yīng)用體系 294
思考與練習(xí) 294