數(shù)據(jù)科學(xué)的主要目標(biāo)就是通過數(shù)據(jù)分析來改進(jìn)決策,它與數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等領(lǐng)域緊密相關(guān),但范圍更廣。本書簡要介紹了該領(lǐng)域的發(fā)展、基礎(chǔ)知識,并闡釋了數(shù)據(jù)科學(xué)項(xiàng)目的各個(gè)階段。書中既考慮數(shù)據(jù)基礎(chǔ)架構(gòu)和集成多個(gè)數(shù)據(jù)源數(shù)據(jù)所面臨的挑戰(zhàn),又介紹機(jī)器學(xué)習(xí)基礎(chǔ)并探討如何應(yīng)用機(jī)器學(xué)習(xí)專業(yè)技術(shù)解決現(xiàn)實(shí)問題。還綜述了倫理和法律問題、數(shù)據(jù)法規(guī)的發(fā)展以及保護(hù)隱私的計(jì)算方法。*后探討了數(shù)據(jù)科學(xué)的未來影響,并給出數(shù)據(jù)科學(xué)項(xiàng)目成功的原則。
數(shù)據(jù)科學(xué)推動(dòng)了現(xiàn)代社會幾乎所有領(lǐng)域決策的發(fā)展,正在影響著人們?nèi)粘I畹姆椒矫婷。本書旨在闡述理解數(shù)據(jù)科學(xué)所需的基本思想和概念,幫助你理解什么是數(shù)據(jù)科學(xué),它是如何工作的,以及它能(和不能)做什么。本書從數(shù)據(jù)科學(xué)發(fā)展演化史,數(shù)據(jù)科學(xué)定義,數(shù)據(jù)、數(shù)據(jù)集,數(shù)據(jù)科學(xué)生態(tài)系統(tǒng),機(jī)器學(xué)習(xí),數(shù)據(jù)科學(xué)標(biāo)準(zhǔn)任務(wù),隱私與道德,發(fā)展趨勢等角度,對數(shù)據(jù)科學(xué)展開了精彩的闡述。
數(shù)據(jù)科學(xué)的目標(biāo)是通過將決策建立在從大數(shù)據(jù)集中提取洞察力的基礎(chǔ)上來改進(jìn)決策。作為一個(gè)活動(dòng)領(lǐng)域,數(shù)據(jù)科學(xué)由一系列原理、問題定義、算法和過程組成,用于從大型數(shù)據(jù)集中提取有用但不顯眼的模式。數(shù)據(jù)科學(xué)與數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)領(lǐng)域密切相關(guān),但它涉及的范圍更廣。如今,數(shù)據(jù)科學(xué)推動(dòng)了現(xiàn)代社會幾乎所有領(lǐng)域決策的發(fā)展。數(shù)據(jù)科學(xué)可能影響人們?nèi)粘I畹姆椒矫婷,如確定在線廣告的呈現(xiàn),向用戶推薦電影、書籍、朋友,過濾垃圾郵件,用戶續(xù)訂手機(jī)合約時(shí)向他們提供合適的優(yōu)惠套餐,降低醫(yī)保成本,規(guī)劃轄區(qū)內(nèi)交通信號燈的布局及通行時(shí)間,藥品設(shè)計(jì),警力部署規(guī)劃等。
大數(shù)據(jù)和社交媒體的出現(xiàn)、計(jì)算能力的加速、計(jì)算機(jī)內(nèi)存成本的大幅降低以及更強(qiáng)大的數(shù)據(jù)分析和建模方法的發(fā)展推動(dòng)了當(dāng)代社會對數(shù)據(jù)科學(xué)需求的增長,其中典型的技術(shù)有深度學(xué)習(xí)。這些因素共同作用意味著組織收集、存儲和處理數(shù)據(jù)將比以前簡單。與此同時(shí),這些技術(shù)創(chuàng)新和數(shù)據(jù)科學(xué)的廣泛應(yīng)用意味著與數(shù)據(jù)使用和個(gè)人隱私相關(guān)的道德挑戰(zhàn)從未如此迫切。本書的目的是提供數(shù)據(jù)科學(xué)的介紹,涵蓋該領(lǐng)域的基本要素,并提供對該領(lǐng)域深刻的原則性見解。
本書第1章介紹了數(shù)據(jù)科學(xué)領(lǐng)域,簡要回顧了數(shù)據(jù)科學(xué)的發(fā)展演化歷史,還探討了如今數(shù)據(jù)科學(xué)為什么那么重要,以及推動(dòng)采用數(shù)據(jù)科學(xué)的一些因素。在這一章的最后,回顧并揭穿了與數(shù)據(jù)科學(xué)相關(guān)的一些神話。第2章介紹了與數(shù)據(jù)相關(guān)的基本概念,描述了數(shù)據(jù)科學(xué)項(xiàng)目的標(biāo)準(zhǔn)流程:業(yè)務(wù)理解、數(shù)據(jù)理解、數(shù)據(jù)準(zhǔn)備、建模、評估和部署。第3章重點(diǎn)介紹了數(shù)據(jù)基礎(chǔ)設(shè)施以及大數(shù)據(jù)和多源數(shù)據(jù)集成帶來的挑戰(zhàn)。數(shù)據(jù)基礎(chǔ)設(shè)施的一個(gè)可能具有挑戰(zhàn)性的典型方面是,數(shù)據(jù)庫和數(shù)據(jù)倉庫中的數(shù)據(jù)通常駐留在與用于數(shù)據(jù)分析的服務(wù)器不同的服務(wù)器上。因此,當(dāng)處理大型數(shù)據(jù)集時(shí),可能要花費(fèi)大量時(shí)間在數(shù)據(jù)庫或數(shù)據(jù)倉庫所依賴的服務(wù)器與進(jìn)行數(shù)據(jù)分析和機(jī)器學(xué)習(xí)處理的服務(wù)器之間移動(dòng)數(shù)據(jù)。第3章首先描述組織中典型的數(shù)據(jù)科學(xué)基礎(chǔ)設(shè)施,以及在數(shù)據(jù)科學(xué)基礎(chǔ)設(shè)施中移動(dòng)大型數(shù)據(jù)集的挑戰(zhàn)的一些新興解決方案,其中包括使用數(shù)據(jù)庫內(nèi)置機(jī)器學(xué)習(xí)算法,使用Hadoop進(jìn)行數(shù)據(jù)存儲和處理,以及混合數(shù)據(jù)庫系統(tǒng)的開發(fā),這些系統(tǒng)無縫地結(jié)合了傳統(tǒng)的數(shù)據(jù)庫軟件和類似Hadoop的解決方案。這一章的最后強(qiáng)調(diào)了將整個(gè)組織的數(shù)據(jù)整合到適合機(jī)器學(xué)習(xí)的統(tǒng)一表示中的一些挑戰(zhàn)。第4章介紹了機(jī)器學(xué)習(xí)領(lǐng)域,并解釋了一些最流行的機(jī)器學(xué)習(xí)算法和模型,包括神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)和決策樹模型。第5章聚焦于通過審視一系列標(biāo)準(zhǔn)業(yè)務(wù)問題,描述了機(jī)器學(xué)習(xí)解決方案如何解決這些問題來將機(jī)器學(xué)習(xí)專業(yè)知識與現(xiàn)實(shí)問題聯(lián)系起來。第6章回顧了數(shù)據(jù)科學(xué)的道德含義、數(shù)據(jù)監(jiān)管的最新發(fā)展,以及在數(shù)據(jù)科學(xué)過程中保護(hù)個(gè)人隱私的一些新的計(jì)算方法。最后,第7章描述了數(shù)據(jù)科學(xué)在不久的將來會產(chǎn)生重大影響的一些領(lǐng)域,并列出了確定數(shù)據(jù)科學(xué)項(xiàng)目是否會成功的一些重要原則。
約翰· D.凱萊赫(John D. Kelleher) 是都柏林理工學(xué)院計(jì)算機(jī)科學(xué)學(xué)院的教授以及信息、通信和娛樂研究所的學(xué)術(shù)負(fù)責(zé)人。他的研究得到了ADAPT中心的支持,該中心由愛爾蘭科學(xué)基金會(Grant 13 / RC / 2106)資助,同時(shí)也接受歐洲區(qū)域發(fā)展基金的資助。 他還是《Fundamentals of Machine Learning for Predictive Data Analytics》的作者之一。
布倫丹·蒂爾尼(Brendan Tierney)是都柏林理工學(xué)院計(jì)算機(jī)科學(xué)學(xué)院的講師,同時(shí)也是Oracle ACE 主任,還著有多本基于Oracle技術(shù)的數(shù)據(jù)挖掘類著作。
譯者序
前言
致謝
作者簡介
第1章 什么是數(shù)據(jù)科學(xué) …… 1
1.1 數(shù)據(jù)科學(xué)簡史 …… 5
1.1.1 數(shù)據(jù)收集簡史 …… 5
1.1.2 數(shù)據(jù)分析簡史 …… 9
1.1.3 數(shù)據(jù)科學(xué)的產(chǎn)生與發(fā)展 …… 14
1.2 數(shù)據(jù)科學(xué)用于何處 …… 20
1.2.1 銷售和營銷中的數(shù)據(jù)科學(xué) …… 21
1.2.2 數(shù)據(jù)科學(xué)在政府中的應(yīng)用 …… 22
1.2.3 數(shù)據(jù)科學(xué)在競技體育中的應(yīng)用 …… 23
1.3 為什么是現(xiàn)在 …… 25
1.4 關(guān)于數(shù)據(jù)科學(xué)的神話 …… 28
第2章 什么是數(shù)據(jù),什么是數(shù)據(jù)集 …… 31
2.1 關(guān)于數(shù)據(jù)的觀點(diǎn) …… 38
2.2 數(shù)據(jù)可以積累,而智慧不能 …… 43
2.3 CRISP-DM …… 45
第3章 數(shù)據(jù)科學(xué)生態(tài)系統(tǒng) …… 54
3.1 將算法遷移至數(shù)據(jù) …… 61
3.1.1 傳統(tǒng)數(shù)據(jù)庫與現(xiàn)代的傳統(tǒng)數(shù)據(jù)庫 …… 64
3.1.2 大數(shù)據(jù)架構(gòu) …… 67
3.1.3 混合數(shù)據(jù)庫世界 …… 69
3.2 數(shù)據(jù)準(zhǔn)備和集成 …… 72
第4章 機(jī)器學(xué)習(xí) …… 77
4.1 有監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí) …… 78
4.2 學(xué)習(xí)預(yù)測模型 …… 83
4.2.1 相關(guān)性不等同于因果,但它有時(shí)非常有用 …… 84
4.2.2 線性回歸 …… 90
4.2.3 神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí) …… 96
4.2.4 決策樹 …… 108
4.3 數(shù)據(jù)科學(xué)中的偏差 …… 114
4.4 評估模型:泛化而不是記憶 …… 116
4.5 摘要 …… 119
第5章 標(biāo)準(zhǔn)的數(shù)據(jù)科學(xué)任務(wù) …… 121
5.1 誰是我們的目標(biāo)客戶(聚類) …… 122
5.2 這是欺詐嗎(異常值檢測) …… 128
5.3 你要配份炸薯?xiàng)l嗎(關(guān)聯(lián)規(guī)則挖掘) …… 131
5.4 流失還是不流失,這是一個(gè)問題(分類) …… 136
5.5 它價(jià)值幾何(回歸) …… 141
第6章 隱私與道德 …… 143
6.1 商業(yè)利益與個(gè)人隱私 …… 145
6.1.1 數(shù)據(jù)科學(xué)的道德啟示:畫像與歧視 …… 148
6.1.2 數(shù)據(jù)科學(xué)的道德含義:創(chuàng)建一個(gè)全景監(jiān)獄 …… 154
6.2 隱私保護(hù) …… 157
6.2.1 保護(hù)隱私的計(jì)算方法 …… 159
6.2.2 規(guī)范數(shù)據(jù)使用和保護(hù)隱私的法律框架 …… 161
6.3 通往道德的數(shù)據(jù)科學(xué)之路 …… 164
第7章 未來趨勢與成功準(zhǔn)則 …… 172
7.1 醫(yī)療數(shù)據(jù)科學(xué) …… 172
7.2 智慧城市 …… 174
7.3 數(shù)據(jù)科學(xué)項(xiàng)目準(zhǔn)則:為什么會成功或失敗 …… 177
7.4 終極思考 …… 185
術(shù)語表 …… 188
延伸閱讀 …… 201
參考文獻(xiàn) …… 203