數(shù)據(jù)科學(xué)家是目前熱門(mén)的職業(yè)之一。本書(shū)全面介紹了成為合格數(shù)據(jù)科學(xué)家所需的知識(shí)、技能和工作流程,是一本內(nèi)容全面的實(shí)用性技術(shù)圖書(shū)。
本書(shū)分為13章,其中第1~3章介紹數(shù)據(jù)科學(xué);第4~8章介紹數(shù)學(xué)知識(shí),包括統(tǒng)計(jì)學(xué)和概率論;第9章介紹數(shù)據(jù)可視化;第10~12章介紹機(jī)器學(xué)習(xí);第13章介紹案例。各個(gè)章節(jié)內(nèi)容均由淺入深,同時(shí)通過(guò)案例和Python代碼,使讀者掌握實(shí)戰(zhàn)技能。
本書(shū)適合有志于成為數(shù)據(jù)科學(xué)家的師生或業(yè)界新手,同時(shí)也適合經(jīng)驗(yàn)豐富的職場(chǎng)老手參考。
《深入淺出數(shù)據(jù)科學(xué)》的目的是幫助你掌握數(shù)學(xué)、編程和商業(yè)分析的綜合技能。通過(guò)本書(shū),你將能夠自信地提出并解答復(fù)雜的數(shù)據(jù)問(wèn)題,從抽象和原始的統(tǒng)計(jì)信息發(fā)掘并完善可執(zhí)行的想法。通過(guò)將數(shù)學(xué)和計(jì)算機(jī)編程技能相結(jié)合,你將踏上成為數(shù)據(jù)科學(xué)家的激動(dòng)人心的旅程。
本書(shū)介紹了數(shù)據(jù)科學(xué)的全過(guò)程,包括數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)清洗,以及如何選擇有效的數(shù)據(jù)挖掘策略和技巧,從而深入理解數(shù)據(jù)科學(xué)的方方面面。你將學(xué)到數(shù)學(xué)和統(tǒng)計(jì)學(xué)的核心知識(shí),以及數(shù)據(jù)科學(xué)家和分析師經(jīng)常使用的代碼。你將了解機(jī)器學(xué)習(xí),學(xué)會(huì)用常見(jiàn)的統(tǒng)計(jì)學(xué)模型分析稠密數(shù)據(jù)集,創(chuàng)建有說(shuō)服力的可視化圖表,并和他人交流分析結(jié)果。
從本書(shū)你將學(xué)習(xí)到:
·理解數(shù)據(jù)科學(xué)的五個(gè)核心步驟
·聰明地使用你的數(shù)據(jù),仔細(xì)地處理它
·填平數(shù)學(xué)和計(jì)算機(jī)編程之間的鴻溝
·學(xué)會(huì)概率論、微積分,以及使用統(tǒng)計(jì)模型處理數(shù)據(jù),得出切實(shí)有效的結(jié)果
·生成并評(píng)估簡(jiǎn)單的機(jī)器學(xué)習(xí)模型
·通過(guò)分析模型有效性指標(biāo),決定機(jī)器學(xué)習(xí)模型的質(zhì)量
·通過(guò)數(shù)據(jù)可視化向他人分享見(jiàn)解
·理解機(jī)器學(xué)習(xí)模型,并使用機(jī)器學(xué)習(xí)模型進(jìn)行預(yù)測(cè),解決自己的問(wèn)題
作者簡(jiǎn)介
Sinan Ozdemir是一名數(shù)據(jù)科學(xué)家、創(chuàng)業(yè)者和教育工作者。Sinan的學(xué)術(shù)生涯在約翰?霍普金斯大學(xué)(The Johns Hopkins University)渡過(guò),主修數(shù)學(xué)專業(yè)。隨后他從事教育事業(yè),曾經(jīng)在約翰?霍普金斯大學(xué)和General Assembly公司舉辦多次數(shù)據(jù)科學(xué)講座。在此之后,他創(chuàng)立了旨在通過(guò)人工智能技術(shù)和數(shù)據(jù)科學(xué)力量幫助企業(yè)銷售團(tuán)隊(duì)的創(chuàng)業(yè)公司Legion Analytics。
譯者簡(jiǎn)介
張星辰,北京榮之聯(lián)科技股份有限公司BI 技術(shù)顧問(wèn),畢業(yè)于重慶郵電大學(xué),具有5年數(shù)據(jù)相關(guān)工作經(jīng)驗(yàn),熟悉商業(yè)智能和數(shù)據(jù)可視化,通過(guò)了微軟數(shù)據(jù)科學(xué)專業(yè)認(rèn)證。
中文版審校人
鮮思東,重慶郵電大學(xué)教授,碩士生導(dǎo)師,復(fù)雜系統(tǒng)智能分析與決策重慶市高校重點(diǎn)實(shí)驗(yàn)室副主任,中國(guó)商業(yè)統(tǒng)計(jì)學(xué)會(huì)理事,F(xiàn)任國(guó)際期刊《Advancements in Case Studies》編輯,擔(dān)任《Knowledge-Based Systems》和《IEEE Transactions on Systems、Man and Cybernetics: Systems》等多個(gè)國(guó)際期刊的審稿人。
洪賢斌,西交利物浦大學(xué)、英國(guó)利物浦大學(xué)機(jī)器學(xué)習(xí)方向博士生,蘇州谷歌開(kāi)fa者社區(qū)組織者。
第 1章 如何聽(tīng)起來(lái)像數(shù)據(jù)科學(xué)家1
1.1 什么是數(shù)據(jù)科學(xué) 3
1.1.1 基本的專業(yè)術(shù)語(yǔ) 3
1.1.2 為什么是數(shù)據(jù)科學(xué) 4
1.1.3 案例:西格瑪科技公司 4
1.2 數(shù)據(jù)科學(xué)韋恩圖 5
1.2.1 數(shù)學(xué) 7
1.2.2 計(jì)算機(jī)編程 8
1.2.3 為什么是Python 9
1.2.4 領(lǐng)域知識(shí) 13
1.3 更多的專業(yè)術(shù)語(yǔ) 14
1.4 數(shù)據(jù)科學(xué)案例 15
1.4.1 案例:自動(dòng)審核政府文件 16
1.4.2 案例:市場(chǎng)營(yíng)銷費(fèi)用 17
1.4.3 案例:數(shù)據(jù)科學(xué)家的崗位描述 18
1.5 總結(jié) 21
第 2章 數(shù)據(jù)的類型 23
2.1 數(shù)據(jù)的味道 23
2.2 為什么要進(jìn)行區(qū)分 24
2.3 結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù) 24
2.4 定量數(shù)據(jù)和定性數(shù)據(jù) 28
2.4.1 案例:咖啡店數(shù)據(jù) 28
2.4.2 案例:世界酒精消費(fèi)量 30
2.4.3 更深入的研究 32
2.5 簡(jiǎn)單小結(jié) 33
2.6 數(shù)據(jù)的4個(gè)尺度 33
2.6.1 定類尺度 34
2.6.2 定序尺度 35
2.6.3 定距尺度 37
2.6.4 定比尺度 41
2.7 數(shù)據(jù)是旁觀者的眼睛 42
2.8 總結(jié) 43
第3章 數(shù)據(jù)科學(xué)的5個(gè)步驟 44
3.1 數(shù)據(jù)科學(xué)簡(jiǎn)介 44
3.2 5個(gè)步驟概覽 45
3.2.1 提出有意思的問(wèn)題 45
3.2.2 獲取數(shù)據(jù) 45
3.2.3 探索數(shù)據(jù) 45
3.2.4 數(shù)據(jù)建模 46
3.2.5 可視化和分享結(jié)果 46
3.3 探索數(shù)據(jù) 46
3.3.1 數(shù)據(jù)探索的基本問(wèn)題 47
3.3.2 數(shù)據(jù)集1:Yelp點(diǎn)評(píng)數(shù)據(jù) 48
3.3.3 數(shù)據(jù)集2:泰坦尼克 56
3.4 總結(jié) 60
第4章 基本的數(shù)學(xué)知識(shí) 61
4.1 數(shù)學(xué)學(xué)科 61
4.2 基本的數(shù)學(xué)符號(hào)和術(shù)語(yǔ) 62
4.2.1 向量和矩陣 62
4.2.2 算術(shù)符號(hào) 65
4.2.3 圖表 68
4.2.4 指數(shù)/對(duì)數(shù) 69
4.2.5 集合論 71
4.3 線性代數(shù) 74
4.4 總結(jié) 78
第5章 概率論入門(mén):不可能,還是不太可能 79
5.1 基本的定義 79
5.2 概率 80
5.3 貝葉斯VS頻率論 81
5.4 復(fù)合事件 84
5.5 條件概率 86
5.6 概率定理 87
5.6.1 加法定理 87
5.6.2 互斥性 88
5.6.3 乘法定理 88
5.6.4 獨(dú)立性 89
5.6.5 互補(bǔ)事件 89
5.7 再進(jìn)一步 91
5.8 總結(jié) 92
第6章 高等概率論 93
6.1 互補(bǔ)事件 93
6.2 重溫貝葉斯思想 94
6.2.1 貝葉斯定理 94
6.2.2 貝葉斯定理的更多應(yīng)用 97
6.3 隨機(jī)變量 100
6.3.1 離散型隨機(jī)變量 101
6.3.2 連續(xù)型隨機(jī)變量 110
6.4 總結(jié) 113
第7章 統(tǒng)計(jì)學(xué)入門(mén) 114
7.1 什么是統(tǒng)計(jì)學(xué) 114
7.2 如何獲取數(shù)據(jù) 115
7.3 數(shù)據(jù)抽樣 118
7.3.1 概率抽樣 118
7.3.2 隨機(jī)抽樣 119
7.3.3 不等概率抽樣 120
7.4 如何描述統(tǒng)計(jì)量 120
7.4.1 測(cè)度中心 120
7.4.2 變異測(cè)度 121
7.4.3 變異系數(shù) 125
7.4.4 相對(duì)位置測(cè)度 126
7.5 經(jīng)驗(yàn)法則 132
7.6 總結(jié) 134
第8章 高等統(tǒng)計(jì)學(xué) 135
8.1 點(diǎn)估計(jì) 135
8.2 抽樣分布 139
8.3 置信區(qū)間 142
8.4 假設(shè)檢驗(yàn) 145
8.4.1 實(shí)施假設(shè)檢驗(yàn) 146
8.4.2 單樣本t檢驗(yàn) 147
8.4.3 I型錯(cuò)誤和II型錯(cuò)誤 151
8.4.4 分類變量的假設(shè)檢驗(yàn) 151
8.5 總結(jié) 155
第9章 交流數(shù)據(jù) 156
9.1 為什么交流數(shù)據(jù)很重要 156
9.2 識(shí)別有效和無(wú)效的可視化 157
9.2.1 散點(diǎn)圖 157
9.2.2 折線圖 159
9.2.3 條形圖 160
9.2.4 直方圖 162
9.2.5 箱形圖 163
9.3 當(dāng)圖表和統(tǒng)計(jì)在說(shuō)謊 166
9.3.1 相關(guān)性VS因果關(guān)系 166
9.3.2 辛普森悖論 168
9.3.3 如果相關(guān)性不等于因果關(guān)系,那什么導(dǎo)致了因果關(guān)系 169
9.4 語(yǔ)言交流 170
9.4.1 關(guān)鍵在于講故事 170
9.4.2 正式場(chǎng)合的注意事項(xiàng) 170
9.5 為什么演示、如何演示和演示策略 171
9.6 總結(jié) 172
第 10章 機(jī)器學(xué)習(xí)精要:你的烤箱在學(xué)習(xí)嗎 173
10.1 什么是機(jī)器學(xué)習(xí) 173
10.2 機(jī)器學(xué)習(xí)并不完美 175
10.3 機(jī)器學(xué)習(xí)如何工作 176
10.4 機(jī)器學(xué)習(xí)的分類 176
10.4.1 監(jiān)督學(xué)習(xí) 177
10.4.2 無(wú)監(jiān)督學(xué)習(xí) 182
10.4.3 強(qiáng)化學(xué)習(xí) 183
10.5 統(tǒng)計(jì)模型如何納入以上分類 186
10.6 線性回歸 186
10.6.1 增加更多預(yù)測(cè)因子 191
10.6.2 回歸指標(biāo) 193
10.7 Logistic回歸 199
10.8 概率、幾率和對(duì)數(shù)幾率 201
10.9 啞變量 206
10.10 總結(jié) 210
第 11章 樹(shù)上無(wú)預(yù)言,真的嗎 212
11.1 樸素貝葉斯分類 212
11.2 決策樹(shù) 220
11.2.1 計(jì)算機(jī)如何生成回歸樹(shù) 221
11.2.2 計(jì)算機(jī)如何擬合分類樹(shù) 222
11.3 無(wú)監(jiān)督學(xué)習(xí) 226
11.3.1 無(wú)監(jiān)督學(xué)習(xí)的使用場(chǎng)景 226
11.3.2 K均值聚類 227
11.3.3 如何選擇最佳的K值,并對(duì)簇進(jìn)行評(píng)價(jià) 233
11.4 特征提取和主成分分析 235
11.5 總結(jié) 246
第 12章 超越精要 247
12.1 偏差-方差權(quán)衡 247
12.1.1 偏差導(dǎo)致的誤差 248
12.1.2 方差導(dǎo)致的誤差 248
12.1.3 兩種極端的偏差-方差權(quán)衡情況 255
12.1.4 偏差-方差如何組成誤差函數(shù) 256
12.2 K層交叉驗(yàn)證 257
12.3 網(wǎng)格搜索算法 261
12.4 集成技術(shù) 266
12.4.1 隨機(jī)森林 268
12.4.2 隨機(jī)森林VS決策樹(shù) 273
12.5 神經(jīng)網(wǎng)絡(luò) 274
12.6 總結(jié) 279
第 13章 案例 280
13.1 案例1:基于社交媒體預(yù)測(cè)股票價(jià)格 280
13.1.1 文本情感分析 280
13.1.2 探索性數(shù)據(jù)分析 281
13.1.3 超越案例 294
13.2 案例2:為什么有些人會(huì)對(duì)配偶撒謊 295
13.3 案例3:初試TensorFlow 301
13.4 總結(jié) 311