大數(shù)據(jù)技術(shù)經(jīng)歷了多年的發(fā)展,已經(jīng)在金融、電信、教育、醫(yī)藥等領(lǐng)域得到了較多也較為成功的應(yīng)用,這使人們看到了該技術(shù)所帶來的社會變革,而IT 技術(shù)的高速發(fā)展使得該技術(shù)趨于大眾化,使得越來越多的人能夠參與其中,分享該技術(shù)帶來的樂趣。
本書系統(tǒng)地介紹了數(shù)據(jù)分析、數(shù)據(jù)可視化與數(shù)據(jù)挖掘的概念和方法,在內(nèi)容編排上側(cè)重于應(yīng)用,用案例將知識點(diǎn)進(jìn)行串聯(lián),本次修訂將數(shù)據(jù)可視化進(jìn)階細(xì)化為可視化進(jìn)階數(shù)據(jù)圖表制作、數(shù)據(jù)公式與函數(shù)、數(shù)據(jù)可視化案例,對其操作方案與步驟進(jìn)行詳解,以期達(dá)到提高讀者的學(xué)習(xí)興趣、增強(qiáng)實踐動手能力的目的。
本書對于初次接觸數(shù)據(jù)分析的讀者會有很大幫助,書中對數(shù)據(jù)分析的每一步操作都有詳盡的說明,且選用的軟件都是相關(guān)工具軟件,無須編程基礎(chǔ)即可完成整個分析過程,使讀者能夠脫離枯燥的代碼環(huán)境,專注于數(shù)據(jù)本身,為數(shù)據(jù)分析帶來全新的思路和視角。書中涉及的數(shù)據(jù)均來自于網(wǎng)絡(luò),僅供學(xué)習(xí)研究使用。
本書由張丹玨任主編,鄭俊任副主編,施慶、趙任穎、程五生、盛家駿、翁少逸和蔣雨蔚參與編寫。全書由顧順德主審。具體分工如下:第1 章由施慶編寫;第2 章的2.1~2.4由程五生編寫;第2 章的2.5 由趙任穎編寫;第2 章的2.6 和第3 章由鄭俊編寫;第4 章由施慶編寫;第5~8 章和附錄A 由張丹玨編寫;附錄B 由盛家駿、翁少逸和蔣雨蔚編寫,張丹玨整理;附錄C 由趙任穎編寫。
在本書的編寫過程中,得到了許多老師的大力支持和熱情幫助,中國鐵道出版社有限公司對本書的出版給予了大力支持,在此表示衷心的感謝!
由于時間倉促,編者水平有限,書中難免存在疏漏或不足之處,懇請讀者批評指正,以便及時修改和完善。
編 者
2020 年6 月
第1 章 數(shù)據(jù)分析概述 1
1.1 大數(shù)據(jù)簡介 1
1.2 數(shù)據(jù)可視化 2
1.2.1 數(shù)據(jù)可視化概述 2
1.2.2 在線可視化工具 2
1.2.3 桌面版可視化軟件 6
1.3 數(shù)據(jù)挖掘 7
1.3.1 數(shù)據(jù)挖掘概述 7
1.3.2 常用數(shù)據(jù)挖掘工具 7
1.4 數(shù)據(jù)分析 9
1.4.1 數(shù)據(jù)分析概述 9
1.4.2 數(shù)據(jù)分析的目的與分類 9
1.4.3 數(shù)據(jù)分析的作用 9
1.5 數(shù)據(jù)分析的步驟 10
1.6 數(shù)據(jù)分析方法論 11
1.7 常見數(shù)據(jù)分析法則 12
第2章 數(shù)據(jù)可視化初步 14
2.1 Oracle 數(shù)據(jù)分析軟件產(chǎn)品簡介 14
2.2 軟件安裝 16
2.2.1 硬件要求 16
2.2.2 安裝Oracle AD 16
2.2.3 安裝DVML 16
2.3 Oracle AD 功能介紹 17
2.3.1 認(rèn)識主頁 17
2.3.2 連接到文件 19
2.3.3 連接到數(shù)據(jù)庫 20
2.3.4 創(chuàng)建項目和添加數(shù)據(jù)集 21
2.3.5 項目的導(dǎo)入導(dǎo)出 26
2.3.6 工作界面簡介 28
2.4 Oracle AD 支持的數(shù)據(jù)類型 29
2.4.1 定性數(shù)據(jù)與定量數(shù)據(jù) 29
2.4.2 度量和屬性 35
2.4.3 連續(xù)和離散 35
2.5 數(shù)據(jù)準(zhǔn)備 36
2.5.1 轉(zhuǎn)換數(shù)據(jù)類型 36
2.5.2 連接 38
2.5.3 提取 39
2.5.4 拆分 42
2.5.5 創(chuàng)建 44
2.5.6 分組 46
2.5.7 收集器 47
2.6 創(chuàng)作一個畫布 49
2.6.1 畫布新建與設(shè)置 49
2.6.2 將數(shù)據(jù)添加到可視化畫布 50
2.6.3 添加多個可視化圖表 51
2.6.4 更改可視化類型 52
2.6.5 調(diào)整可視化屬性 54
2.6.6 顏色設(shè)置 56
2.6.7 大小(寬度)設(shè)置 58
2.6.8 排序和篩選 59
2.6.9 數(shù)據(jù)的鉆探 61
2.6.10 用作篩選器 61
2.6.11 導(dǎo)出畫布 62
第3 章 數(shù)據(jù)圖表制作 65
3.1 條形圖 66
3.2 水平條形圖 75
3.3 線形圖 77
3.4 面積圖 82
3.5 餅圖 84
3.6 旭日圖 88
3.7 樹狀圖 91
3.8 雷達(dá)線 92
3.9 網(wǎng)格熱圖 95
3.10 標(biāo)記云 98
3.11 散點(diǎn)圖 100
3.12 組合圖表 106
3.13 瀑布圖 110
3.14 箱線圖 113
3.15 地圖 116
3.16 敘述 118
第4 章 數(shù)據(jù)公式與函數(shù) 121
4.1 常量與運(yùn)算符 121
4.2 公式與函數(shù)操作 123
4.2.1 公式的使用 123
4.2.2 函數(shù)的輸入 126
4.3 常用函數(shù) 126
4.3.1 聚合函數(shù) 126
4.3.2 字符串函數(shù) 135
4.3.3 數(shù)學(xué)函數(shù) 139
4.3.4 轉(zhuǎn)換函數(shù) 141
4.3.5 日歷/ 日期函數(shù) 142
4.3.6 表達(dá)式函數(shù) 147
第5 章 數(shù)據(jù)可視化案例 152
5.1 圖解中國能源 152
5.1.1 數(shù)據(jù)整理 152
5.1.2 能源概況 154
5.1.3 四類能源生產(chǎn)與消耗比例 156
5.1.4 敘述 158
5.2 圖解新冠肺炎疫情發(fā)展 159
5.2.1 數(shù)據(jù)整理 159
5.2.2 疫情概況 160
5.2.3 部分省份/ 城市排名 161
5.2.4 每日新增情況 166
5.2.5 敘述 168
第6 章 數(shù)據(jù)挖掘基礎(chǔ) 169
6.1 數(shù)據(jù)挖掘概述 169
6.1.1 數(shù)據(jù)挖掘的分類 169
6.1.2 數(shù)據(jù)挖掘的步驟 170
6.1.3 數(shù)據(jù)挖掘的應(yīng)用 171
6.1.4 數(shù)據(jù)挖掘的案例 172
6.2 IBM SPSS Modeler 18 簡介 173
6.2.1 軟件下載與安裝 174
6.2.2 軟件界面介紹 174
6.2.3 數(shù)據(jù)流構(gòu)建 176
6.2.4 模型簡介 178
6.3 數(shù)據(jù)整理 180
6.3.1 數(shù)據(jù)的屬性 181
6.3.2 數(shù)據(jù)的角色 181
6.3.3 數(shù)據(jù)的導(dǎo)入 181
6.3.4 數(shù)據(jù)的集成 186
6.3.5 數(shù)據(jù)的導(dǎo)出 188
6.4 數(shù)據(jù)建模決策樹 189
6.4.1 決策樹案例 189
6.4.2 用戶畫像案例 193
6.5 數(shù)據(jù)建模關(guān)聯(lián)分析 195
6.5.1 關(guān)聯(lián)參數(shù) 195
6.5.2 關(guān)聯(lián)分析案例 196
第7 章 數(shù)據(jù)分析報告 199
7.1 數(shù)據(jù)分析報告概述 199
7.2 數(shù)據(jù)分析報告的寫作原則 199
7.3 數(shù)據(jù)分析報告的結(jié)構(gòu) 200
7.4 數(shù)據(jù)分析報告排版 201
第8 章 數(shù)據(jù)分析案例 207
8.1 廣告投入分析 207
8.1.1 數(shù)據(jù)整理 207
8.1.2 廣告投入概況分析 209
8.1.3 項目廣告投放分析 211
8.1.4 留學(xué)英語公開課在百度投放渠道分析 212
8.1.5 注冊人數(shù)預(yù)測 215
8.1.6 封面 220
8.1.7 結(jié)論 220
8.1.8 敘述 221
8.2 成績分析 221
8.2.1 數(shù)據(jù)整理 221
8.2.2 人數(shù)分析 224
8.2.3 生源地分析 227
8.2.4 成績分析 229
8.2.5 封面 235
8.2.6 結(jié)論 236
8.2.7 敘述 237
附錄A 數(shù)據(jù)分析報告評分表 238
附錄B 數(shù)據(jù)分析報告示例 239
附錄C Access 基本操作 254
參考文獻(xiàn) 260