數(shù)據(jù)分析通識(shí)(異步圖書(shū)出品)
定 價(jià):69 元
- 作者:途索 著
- 出版時(shí)間:2020/10/1
- ISBN:9787115544452
- 出 版 社:人民郵電出版社
- 中圖法分類(lèi):TP274
- 頁(yè)碼:293
- 紙張:
- 版次:01
- 開(kāi)本:16開(kāi)
內(nèi) 容 提 要
本書(shū)務(wù)實(shí)的數(shù)據(jù)分析科學(xué)技術(shù)、精彩的實(shí)際業(yè)務(wù)案例,很好地滿足了從業(yè)者的實(shí)際需求;本書(shū)是作者結(jié)合近幾年的工作經(jīng)驗(yàn),將在實(shí)際業(yè)務(wù)場(chǎng)景中的案例進(jìn)行脫敏抽象,置于本書(shū)的每章之中,從而形成的一本把數(shù)據(jù)分析科學(xué)技術(shù)應(yīng)用于實(shí)際業(yè)務(wù)的數(shù)據(jù)分析類(lèi)圖書(shū)。主要內(nèi)容包括數(shù)據(jù)處理的抽象流程、數(shù)據(jù)系統(tǒng)的有機(jī)組成、數(shù)據(jù)獲取、探索性數(shù)據(jù)分析、目的性數(shù)據(jù)分析、數(shù)據(jù)可視化、特征工程、模型、結(jié)果評(píng)價(jià)、數(shù)據(jù)應(yīng)用等。
本書(shū)介紹了數(shù)據(jù)分析科學(xué)的許多方面,不但適合業(yè)務(wù)分析人員和數(shù)據(jù)分析與建模從業(yè)者學(xué)習(xí),還可作為大專(zhuān)院校相關(guān)專(zhuān)業(yè)師生的學(xué)習(xí)用書(shū),以及相關(guān)培訓(xùn)學(xué)校的教材。
1.來(lái)自阿里巴巴公司的一線數(shù)據(jù)分析工程師力作,人人看得懂用得上的數(shù)據(jù)分析書(shū);
2.理論聯(lián)系實(shí)際:書(shū)中大量的實(shí)例來(lái)自一線大廠,佐證數(shù)據(jù)分析和數(shù)據(jù)建模的理論和方法,對(duì)職場(chǎng)數(shù)據(jù)相關(guān)從業(yè)者很有幫助;
3.內(nèi)容全面:從數(shù)據(jù)開(kāi)始,到數(shù)據(jù)的處理過(guò)程和可視化,到業(yè)務(wù)的數(shù)據(jù)分析、數(shù)據(jù)建模,再到數(shù)據(jù)與人工智能應(yīng)用的結(jié)合等;
4.通俗易懂:通過(guò)大量的實(shí)例,把數(shù)據(jù)建模與數(shù)據(jù)分析講解得通俗易懂,幫助大家快速成為數(shù)據(jù)分析實(shí)戰(zhàn)高手。
主要內(nèi)容包括:數(shù)據(jù)處理的抽象流程與數(shù)據(jù)系統(tǒng)的有機(jī)組成、數(shù)據(jù)獲取、探索性數(shù)據(jù)分析與目的性數(shù)據(jù)分析、數(shù)據(jù)可視化、特征工程、模型(業(yè)務(wù)模型、數(shù)據(jù)模型、函數(shù)模型)、結(jié)果評(píng)價(jià)、數(shù)據(jù)應(yīng)用等內(nèi)容。
途索,就職于大型互聯(lián)網(wǎng)公司,數(shù)據(jù)分析專(zhuān)家,從事多年數(shù)據(jù)科學(xué)相關(guān)的工作。在消費(fèi)級(jí)領(lǐng)域(C端)與企業(yè)級(jí)領(lǐng)域(B端)從事過(guò)數(shù)十個(gè)大數(shù)據(jù)與算法方面的工程與項(xiàng)目,曾多次得到公司的嘉獎(jiǎng)和業(yè)內(nèi)的肯定。
目 錄
第0章 技術(shù)與業(yè)務(wù) 1
0.1 一個(gè)場(chǎng)景 1
0.2 什么是業(yè)務(wù) 2
0.3 技術(shù)與業(yè)務(wù)的分工 3
0.4 數(shù)據(jù)分析工作者的定位 4
第 1章 數(shù)據(jù)處理的抽象流程與數(shù)據(jù)系統(tǒng)的
有機(jī)組成 6
1.1 數(shù)據(jù)與大數(shù)據(jù) 6
1.2 數(shù)據(jù)驅(qū)動(dòng)的系統(tǒng) 7
1.3 數(shù)據(jù)處理的一般環(huán)節(jié) 8
1.4 數(shù)據(jù)的服務(wù)對(duì)象 9
1.5 與數(shù)據(jù)業(yè)務(wù)相關(guān)的技術(shù)分工 11
第 2章 數(shù)據(jù)獲取 15
2.1 獲取數(shù)據(jù)需要的成本 15
2.2 獲取數(shù)據(jù)的主要方式 15
2.2.1 設(shè)備采集 15
2.2.2 業(yè)務(wù)記錄與調(diào)查 16
2.2.3 日志與埋點(diǎn) 16
2.2.4 爬蟲(chóng)抓取 17
2.2.5 合作、服務(wù)與購(gòu)買(mǎi) 18
2.2.6 數(shù)據(jù)倉(cāng)庫(kù) 19
2.3 采樣數(shù)據(jù)的陷阱 20
2.4 本章涉及的技術(shù)實(shí)現(xiàn)方案 22
2.4.1 爬蟲(chóng)抓。≒ython版) 22
2.4.2 前端埋點(diǎn)SDK 23
2.4.3 日志采集 23
2.4.4 數(shù)據(jù)倉(cāng)庫(kù) 23
第3章 探索性數(shù)據(jù)分析與目的性數(shù)據(jù)
分析 24
3.1 探索性數(shù)據(jù)分析 24
3.2 一份數(shù)據(jù)集 24
3.3 數(shù)據(jù)字段分類(lèi) 25
3.4 遍歷每個(gè)字段 26
3.4.1 了解離散屬性 27
3.4.2 了解連續(xù)屬性 28
3.4.3 分布與分箱 32
3.4.4 異常值與數(shù)據(jù)清洗 36
3.5 數(shù)據(jù)分析的本質(zhì) 37
3.5.1 尋找用來(lái)比較的實(shí)體 39
3.5.2 拿什么進(jìn)行比較 42
3.5.3 怎樣進(jìn)行比較 42
3.6 目的性數(shù)據(jù)分析 89
3.6.1 目的性數(shù)據(jù)分析的一般方法 90
3.6.2 目的性數(shù)據(jù)分析的意義 92
3.7 本章涉及的技術(shù)實(shí)現(xiàn)方案 93
3.7.1 數(shù)據(jù)分析軟件 93
3.7.2 SQL 96
3.7.3 Python 97
3.7.4 大數(shù)據(jù)分析解決方案 98
第4章 展示信息的推薦方式——
可視化 100
4.1 數(shù)據(jù)可視化 100
4.2 常見(jiàn)的圖表類(lèi)型與應(yīng)用場(chǎng)景 101
4.2.1 趨勢(shì)型 101
4.2.2 比較型 104
4.2.3 比例型 106
4.2.4 分布型 107
4.2.5 區(qū)間型 109
4.2.6 關(guān)聯(lián)型 109
4.2.7 地理型 112
4.3 數(shù)據(jù)可視化與數(shù)據(jù)分析 112
4.3.1 數(shù)據(jù)可視化與假設(shè)檢驗(yàn)、
分布擬合 112
4.3.2 數(shù)據(jù)可視化與多維分析、鉆取
分析、交叉分析 115
4.3.3 數(shù)據(jù)可視化與秩次分析 117
4.3.4 數(shù)據(jù)可視化與相關(guān)分析、
回歸分析 119
4.3.5 數(shù)據(jù)可視化與分組歸類(lèi) 121
4.3.6 數(shù)據(jù)可視化與目的性數(shù)據(jù)
分析 122
4.4 可視化數(shù)據(jù)交互 122
4.4.1 交互式可視化的流程 124
4.4.2 常見(jiàn)的數(shù)據(jù)可視化交互
組件 124
4.5 可視化設(shè)計(jì) 125
4.5.1 可視化設(shè)計(jì)的美學(xué)原則 125
4.5.2 可視化設(shè)計(jì)的高效原則 126
4.5.3 可視化交互的一些準(zhǔn)則 129
4.6 可視化工程 129
4.6.1 確定主題 130
4.6.2 提煉數(shù)據(jù) 130
4.6.3 選擇合適的圖表 131
4.6.4 可視化設(shè)計(jì) 131
4.7 本章涉及的技術(shù)實(shí)現(xiàn)方案 131
4.7.1 Python 131
4.7.2 開(kāi)源可視化API 132
4.7.3 商業(yè)化 132
第5章 特征工程 133
5.1 變量、字段、屬性、維度和特征 133
5.2 特征工程的內(nèi)涵 135
5.3 特征獲取 136
5.3.1 獲取用于提取特征的數(shù)據(jù) 136
5.3.2 特征的可用性評(píng)估 137
5.3.3 從特征獲取的角度清洗數(shù)據(jù) 137
5.4 特征處理與提取 138
5.4.1 數(shù)據(jù)清洗 138
5.4.2 特征選擇 138
5.4.3 特征變換 143
5.4.4 特征抽取 153
5.4.5 特征衍生 156
5.5 特征監(jiān)控 161
5.5.1 監(jiān)控已有特征 161
5.5.2 尋找新的特征 162
5.6 一個(gè)例子 163
5.6.1 有哪些數(shù)據(jù) 163
5.6.2 提取業(yè)務(wù)特征 164
5.6.3 特征處理 165
5.6.4 二次特征衍生 165
5.6.5 二次特征處理 165
5.6.6 建模與迭代 165
5.7 頭腦風(fēng)暴 166
5.8 本章涉及的技術(shù)實(shí)現(xiàn)方案 167
5.8.1 Python 167
5.8.2 大數(shù)據(jù)平臺(tái)的特征工程模塊 168
5.8.3 組件化的特征工程 168
第6章 模型 169
6.1 模型的概念 169
6.2 業(yè)務(wù)模型、數(shù)據(jù)模型、函數(shù)模型 170
6.2.1 業(yè)務(wù)模型 170
6.2.2 數(shù)據(jù)模型 171
6.2.3 函數(shù)模型 173
6.2.4 其他“模型”與上述3種模型的
關(guān)系 174
6.3 機(jī)器學(xué)習(xí)與統(tǒng)計(jì)建模的聯(lián)系與
區(qū)別 175
6.4 函數(shù)模型與業(yè)務(wù) 176
6.4.1 數(shù)據(jù)、特征工程與函數(shù)
模型 177
6.4.2 監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)、
半監(jiān)督學(xué)習(xí)與歸納偏置 177
6.4.3 交叉驗(yàn)證與過(guò)擬合 182
6.5 常見(jiàn)的函數(shù)模型 185
6.5.1 數(shù)據(jù)的刻畫(huà)方式 185
6.5.2 分類(lèi)與回歸 191
6.5.3 聚類(lèi) 237
6.5.4 關(guān)聯(lián) 245
6.5.5 半監(jiān)督學(xué)習(xí) 249
6.6 調(diào)參 253
6.6.1 調(diào)參調(diào)的是超參數(shù) 253
6.6.2 經(jīng)驗(yàn)調(diào)參 254
6.6.3 簡(jiǎn)單模型 254
6.7 什么樣的模型是好模型 255
6.7.1 模型選擇 255
6.7.2 可解釋性 256
6.7.3 奧卡姆剃刀原理 257
6.8 遷移學(xué)習(xí)與強(qiáng)化學(xué)習(xí) 259
6.8.1 遷移學(xué)習(xí) 259
6.8.2 強(qiáng)化學(xué)習(xí) 261
6.9 本章涉及的技術(shù)實(shí)現(xiàn)方案 263
6.9.1 Python 263
6.9.2 大數(shù)據(jù) 264
第7章 結(jié)果評(píng)價(jià) 265
7.1 分類(lèi)模型的結(jié)果評(píng)價(jià) 265
7.1.1 正樣本與負(fù)樣本 265
7.1.2 混淆矩陣及其衍生指標(biāo) 266
7.1.3 ROC與AUC 268
7.1.4 提升圖 271
7.1.5 KS曲線 271
7.1.6 過(guò)采樣與欠采樣 272
7.2 回歸模型的結(jié)果評(píng)價(jià) 273
7.2.1 基于絕對(duì)數(shù)值的結(jié)果評(píng)價(jià) 273
7.2.2 基于比例數(shù)值的結(jié)果評(píng)價(jià) 274
7.2.3 決定系數(shù)與校正決定系數(shù) 274
7.3 聚類(lèi)模型的結(jié)果評(píng)價(jià) 275
7.3.1 方差 275
7.3.2 輪廓系數(shù) 275
7.3.3 蘭德系數(shù) 276
7.4 關(guān)聯(lián)模型的結(jié)果評(píng)價(jià) 276
7.5 本章涉及的技術(shù)實(shí)現(xiàn)方案 276
第8章 數(shù)據(jù)應(yīng)用與人工智能 278
8.1 業(yè)務(wù)數(shù)據(jù)化與數(shù)據(jù)業(yè)務(wù)化 278
8.2 數(shù)據(jù)應(yīng)用的常見(jiàn)產(chǎn)出形式 279
8.2.1 指標(biāo) 279
8.2.2 表格 280
8.2.3 可視化圖表與交互 273
8.2.4 報(bào)告 280
8.2.5 模型 280
8.3 幾種典型的數(shù)據(jù)應(yīng)用系統(tǒng) 280
8.3.1 離線挖掘任務(wù)流 280
8.3.2 實(shí)時(shí)預(yù)測(cè)與挖掘任務(wù) 281
8.3.3 推薦系統(tǒng) 281
8.3.4 搜索引擎 282
8.3.5 Feed流 283
8.4 數(shù)據(jù)應(yīng)用系統(tǒng)的優(yōu)勢(shì)與限制 283
第9章 未來(lái)的數(shù)據(jù)與數(shù)據(jù)的未來(lái) 285
9.1 數(shù)據(jù)融合與未來(lái)數(shù)據(jù)驅(qū)動(dòng)系統(tǒng)的
展望 285
9.1.1 數(shù)據(jù)化是一切的起點(diǎn) 285
9.1.2 融合是數(shù)據(jù)發(fā)揮能量的
關(guān)鍵 286
9.1.3 計(jì)算還是太慢了 287
9.1.4 為什么要數(shù)據(jù)化、融合、
計(jì)算? 287
9.2 人工智能 288
9.2.1 人與人工智能 288
9.2.2 智能是個(gè)系統(tǒng) 289
9.2.3 智能域 290
后記——擁抱不確定的美好 291
參考文獻(xiàn) 295