本書作為 CDA LEVEL Ⅱ考試教材,打破傳統(tǒng)的知識(shí)整合模式,從 EDIT(探索、診斷、指導(dǎo)和工具)數(shù)字化工作模型的角度進(jìn)行講解,在介紹知識(shí)概念的同時(shí),還講解了在進(jìn)行商業(yè)策略數(shù)據(jù)分析時(shí)應(yīng)遵循的整體思維和思考方式,以達(dá)到業(yè)務(wù)宏觀分析與用戶微觀洞察相結(jié)合、使用科學(xué)的方式進(jìn)行數(shù)據(jù)分析的教學(xué)目標(biāo)。本書分為 5 部分,分別講解 EDIT 模型、數(shù)據(jù)處理與可視化、根因分析、業(yè)務(wù)優(yōu)化,以及數(shù)據(jù)治理與數(shù)據(jù)模型管理。其中第一部分就是第 1 章的內(nèi)容,第二部分包含第 2 章和第 3 章,第三部分包含第 4~8 章,第四部分包含第 9~11 章,第五部分包含第 12~14 章,每章分別針對(duì)當(dāng)前部分的問題進(jìn)行分析與處理。
CDA數(shù)據(jù)科學(xué)研究院簡(jiǎn)介2013年,大數(shù)據(jù)行業(yè)方興未艾,CDA數(shù)據(jù)科學(xué)研究院孕育而生,是國內(nèi)率先成立的專注于數(shù)據(jù)科學(xué)領(lǐng)域的專業(yè)研究團(tuán)隊(duì)。CDA數(shù)據(jù)科學(xué)研究院匯集數(shù)據(jù)行業(yè)專家,團(tuán)隊(duì)具有專業(yè)的學(xué)術(shù)素養(yǎng)、精湛的研究水平、扎實(shí)的企業(yè)實(shí)戰(zhàn)經(jīng)驗(yàn),豐富的行業(yè)資源,通過對(duì)各類企業(yè)、社會(huì)組織等進(jìn)行全面、系統(tǒng)、深入的調(diào)查和訪問,從而獲得緊跟技術(shù)發(fā)展的經(jīng)驗(yàn)與數(shù)據(jù),并結(jié)合數(shù)據(jù)行業(yè)的未來發(fā)展方向進(jìn)行系統(tǒng)的研究,不斷研發(fā)新的知識(shí)體系和技術(shù)應(yīng)用。
目錄
第1 章 EDIT 模型概述. 1
1.1 探索階段 4
1.2 診斷階段 5
1.3 指導(dǎo)階段 8
1.4 工具支持 9
1.5 本章練習(xí)題 10
第2 章 數(shù)據(jù)處理 12
2.1 使用pandas 讀取結(jié)構(gòu)化數(shù)據(jù) .13
2.1.1 讀取數(shù)據(jù) .14
2.1.2 寫出數(shù)據(jù) .17
2.2 數(shù)據(jù)整合 17
2.2.1 行、列操作 .17
2.2.2 條件查詢 .21
2.2.3 橫向連接 .24
2.2.4 縱向合并 .27
2.2.5 排序 .30
2.2.6 分組匯總 .31
2.2.7 拆分列 .35
2.2.8 賦值與條件賦值 .36
2.3 數(shù)據(jù)清洗 39
2.3.1 重復(fù)值處理 .39
2.3.2 缺失值處理 .40
2.4 本章練習(xí)題 43
第3 章 指標(biāo)體系與數(shù)據(jù)可視化. 45
3.1 Python 可視化 45
3.1.1 Matplotlib 繪圖庫 .45
3.1.2 Seaborn 繪圖庫.54
3.2 描述性統(tǒng)計(jì)分析與繪圖 60
3.2.1 描述性統(tǒng)計(jì)進(jìn)行數(shù)據(jù)探索 .60
3.2.2 制作報(bào)表與統(tǒng)計(jì)制圖 .69
3.2.3 制圖的步驟 .76
3.3 指標(biāo)體系 81
3.3.1 建立指標(biāo)標(biāo)準(zhǔn) .82
3.3.2 什么是指標(biāo)體系 .83
3.3.3 構(gòu)建指標(biāo)體系的意義 .85
3.3.4 構(gòu)建指標(biāo)庫 .86
3.3.5 搭建管理分析視圖和指標(biāo)應(yīng)用模式 .89
3.4 本章練習(xí)題 90
第4 章 數(shù)據(jù)采集與數(shù)據(jù)預(yù)處理. 92
4.1 數(shù)據(jù)采集方法 92
4.1.1 市場(chǎng)研究中的數(shù)據(jù) .92
4.1.2 概率抽樣方法 .93
4.1.3 非概率抽樣方法 .99
4.1.4 概率抽樣和非概率抽樣的比較 .101
4.2 市場(chǎng)調(diào)研和數(shù)據(jù)錄入 101
4.2.1 市場(chǎng)調(diào)研流程 .101
4.2.2 市場(chǎng)調(diào)研目標(biāo)設(shè)定 .102
4.2.3 市場(chǎng)調(diào)研前的準(zhǔn)備工作 .102
4.2.4 實(shí)施調(diào)研 .109
4.3 數(shù)據(jù)預(yù)處理基礎(chǔ) 110
4.3.1 數(shù)據(jù)預(yù)處理基本步驟 .110
4.3.2 錯(cuò)誤數(shù)據(jù)識(shí)別與處理 .111
4.3.3 連續(xù)型變量離群值識(shí)別與處理 .116
4.3.4 分類型變量概化處理 .117
4.3.5 缺失值處理 .118
4.3.6 連續(xù)型變量分布形態(tài)轉(zhuǎn)換 .122
4.3.7 連續(xù)型變量中心標(biāo)準(zhǔn)化或歸一化 .122
4.3.8 變量降維 .123
4.3.9 WoE 轉(zhuǎn)換 124
4.4 本章練習(xí)題 125
第5 章 宏觀業(yè)務(wù)分析方法 129
5.1 矩陣分析法 129
5.2 連續(xù)型變量降維 134
5.2.1 方法概述 .135
5.2.2 變量篩選 .136
5.2.3 維度歸約 .136
5.3 主成分分析法 137
5.3.1 主成分分析簡(jiǎn)介 .137
5.3.2 主成分分析原理 .138
5.3.3 主成分分析的運(yùn)用 .141
5.3.4 實(shí)戰(zhàn)案例:在Python 中實(shí)現(xiàn)主成分分析 .142
5.3.5 基于主成分的冗余變量篩選 .145
5.4 因子分析 146
5.4.1 因子分析模型 .146
5.4.2 因子分析算法 .148
5.4.3 實(shí)戰(zhàn)案例:在Python 中實(shí)現(xiàn)因子分析 .151
5.5 多維尺度分析 155
5.6 本章練習(xí)題 159
第6 章 用戶標(biāo)簽體系與用戶畫像 165
6.1 標(biāo)簽體系的整體框架 167
6.2 標(biāo)簽的分類 168
6.2.1 從研究客體的數(shù)據(jù)類型角度分類 .168
6.2.2 從標(biāo)簽的時(shí)態(tài)角度分類 .170
6.2.3 從標(biāo)簽的加工角度分類 .171
6.2.4 業(yè)務(wù)指標(biāo)與用戶標(biāo)簽的關(guān)系 .175
6.3 用戶畫像 181
6.3.1 細(xì)分市場(chǎng)與STP 模型 182
6.3.2 快速入手用戶畫像 .182
6.3.3 用戶分群的發(fā)展歷程 .185
6.3.4 用戶的決策進(jìn)程 .186
6.3.5 馬斯洛需求理論 .187
6.3.6 用戶消費(fèi)的成本與收益 .187
6.3.7 用戶細(xì)分的方法 .188
6.3.8 基于用戶分群的精準(zhǔn)營銷 .190
6.3.9 標(biāo)簽與數(shù)據(jù)科學(xué)的過程 .191
6.4 實(shí)戰(zhàn)案例:用Python 實(shí)現(xiàn)用戶畫像 .192
6.4.1 使用Python 進(jìn)行用戶畫像的基礎(chǔ)知識(shí) .192
6.4.2 用戶畫像在診斷階段中的應(yīng)用 .192
6.4.3 樣本數(shù)據(jù)集介紹 .193
6.4.4 使用SQL 語句進(jìn)行數(shù)據(jù)處理 .195
6.4.5 使用Python 進(jìn)行用戶畫像 .198
6.5 本章練習(xí)題 202
第7 章 使用統(tǒng)計(jì)學(xué)方法進(jìn)行變量有效性測(cè)試 205
7.1 假設(shè)檢驗(yàn) 205
7.1.1 假設(shè)檢驗(yàn)的基本概念 .206
7.1.2 假設(shè)檢驗(yàn)中的兩類錯(cuò)誤 .207
7.1.3 假設(shè)檢驗(yàn)與區(qū)間估計(jì)的聯(lián)系 .209
7.1.4 假設(shè)檢驗(yàn)的基本步驟 .209
7.1.5 配對(duì)樣本t 檢驗(yàn)211
7.2 方差分析 211
7.2.1 單因素方差分析 .212
7.2.2 多因素方差分析 .217
7.3 列聯(lián)表分析與卡方檢驗(yàn) 220
7.3.1 列聯(lián)表 .220
7.3.2 卡方檢驗(yàn) .222
7.4 線性回歸 224
7.4.1 簡(jiǎn)單線性回歸 .225
7.4.2 多元線性回歸 .227
7.4.3 多元線性回歸的變量篩選 .236
7.4.4 線性回歸模型的經(jīng)典假設(shè) .239
7.4.5 建立線性回歸模型的基本步驟 .248
7.5 Logistic 回歸 249
7.5.1 邏輯回歸的相關(guān)關(guān)系分析 .252
7.5.2 邏輯回歸模型及實(shí)現(xiàn) .253
7.5.3 邏輯回歸的極大似然估計(jì) .264
7.5.4 模型評(píng)估 .266
7.5.5 因果推斷模型 .274
7.6 本章練習(xí)題 278
第8 章 使用時(shí)間序列分析方法做預(yù)報(bào). 294
8.1 認(rèn)識(shí)時(shí)間序列 294
8.2 效應(yīng)分解法 295
8.2.1 時(shí)間序列的效應(yīng)分解 .296
8.2.2 時(shí)間序列3 種效應(yīng)的組合方式 .296
8.3 平穩(wěn)時(shí)間序列分析ARMA 模型 297
8.3.1 平穩(wěn)時(shí)間序列 .297
8.3.2 ARMA 模型 298
8.3.3 在Python 中進(jìn)行AR 建模 304
8.4 非平穩(wěn)時(shí)間序列分析ARIMA 模型 .310
8.4.1 差分與ARIMA 模型 .310
8.4.2 在Python 中進(jìn)行ARIMA 建模 313
8.5 ARIMA 建模方法總結(jié) 322
8.6 本章練習(xí)題 323
第9 章 用戶分群方法 327
9.1 用戶細(xì)分與聚類 327
9.1.1 用戶細(xì)分的重要意義 .327
9.1.2 用戶細(xì)分的不同商業(yè)主題 .328
9.2 聚類分析的基本概念 335
9.3 聚類模型的評(píng)估 336
9.3.1 輪廓系數(shù) .336
9.3.2 平方根標(biāo)準(zhǔn)誤差 .337
9.3.3 R2 .337
9.3.4 ARI 338
9.4 層次聚類 338
9.4.1 層次聚類的算法描述 .338
9.4.2 層次聚類分群數(shù)量的確定 .342
9.4.3 層次聚類應(yīng)用案例 .343
9.4.4 層次聚類的特點(diǎn) .347
9.5 K-means 聚類算法 .347
9.5.1 K-means 聚類算法描述 .347
9.5.2 K-means 聚類算法的應(yīng)用:用戶細(xì)分 .348
9.6 聚類事后分析:決策樹應(yīng)用 356
9.6.1 決策樹的基本概念 .356
9.6.2 決策樹解讀用戶分群后的特征 .357
9.7 本章練習(xí)題 359
第10 章 業(yè)務(wù)流程分析與流程優(yōu)化 364
10.1 價(jià)值流程圖 364
10.2 對(duì)比測(cè)試 366
10.2.1 轉(zhuǎn)換漏斗 .366
10.2.2 對(duì)比測(cè)試 .367
10.3 本章練習(xí)題 371
第11 章 運(yùn)籌優(yōu)化模型 373
11.1 線性規(guī)劃 373
11.2 整數(shù)規(guī)劃 380
11.3 二次規(guī)劃 386
11.4 本章練習(xí)題 .390
第12 章 數(shù)據(jù)治理 393
12.1 數(shù)據(jù)治理的驅(qū)動(dòng)因素 393
12.2 數(shù)據(jù)治理體系 394
12.2.1 數(shù)據(jù)治理域 .395
12.2.2 數(shù)據(jù)管理域 .397
12.2.3 數(shù)據(jù)應(yīng)用域 .401
12.3 如何開展數(shù)據(jù)治理 404
12.3.1 準(zhǔn)確的定位數(shù)據(jù)治理 .404
12.3.2 明確數(shù)據(jù)應(yīng)用方向 .405
12.3.3 多層級(jí)全方位進(jìn)行治理 .406
12.4 本章練習(xí)題 406
第13 章 數(shù)據(jù)模型管理 408
13.1 數(shù)據(jù)分類 408
13.2 數(shù)據(jù)建模 411
13.2.1 數(shù)據(jù)架構(gòu)的基本概念 .411
13.2.2 數(shù)據(jù)模型介紹 .413
13.2.3 數(shù)據(jù)建;A(chǔ) .413
13.2.4 主題域分類 .414
13.2.5 概念模型 .414
13.2.6 邏輯模型 .415
13.2.7 物理模型 .416
13.3 數(shù)據(jù)建模案例 416
13.4 數(shù)據(jù)倉庫體系和ETL 419
13.5 本章練習(xí)題 423
第14 章 智能對(duì)話分析與預(yù)測(cè) 426
14.1 導(dǎo)入數(shù)據(jù) 430
14.2 數(shù)據(jù)探索 430
14.2.1 缺失值 .430
14.2.2 重復(fù)值 .431
14.2.3 異常值 .431
14.2.4 相關(guān)分析 .432
14.3 可視化展示 434
14.3.1 多變量圖 .434
14.3.2 回歸擬合圖 .434
14.3.3 聯(lián)合分布圖 .436
14.4 邏輯回歸模型 436
14.4.1 劃分?jǐn)?shù)據(jù)集 .436
14.4.2 初步建模 .437
14.4.3 模型優(yōu)化 .438
14.4.4 模型預(yù)測(cè)與評(píng)估 .439