在全世界不同的文化中,數(shù)據(jù)的收集與組織都有著悠久的歷史,甚至在計算機思想出現(xiàn)之前很久就已存在。但只是到了互聯(lián)網(wǎng)時代,日常產生的數(shù)據(jù)量才開始變得非常巨大,而且繼續(xù)呈指數(shù)級增長,其中包括我們上傳的文件、視頻、照片、社交媒體信息、在線購物,甚至我們汽車的GPS導航數(shù)據(jù)。大數(shù)據(jù)這一術語所代表的不僅僅是一種量變,而是一種質變;其所指涉的不僅是新的技術,還有企業(yè)和政府利用它的方式;魻柲匪够诮y(tǒng)計學、概率論和計算機科學,對大數(shù)據(jù)這一主題進行了概要性探討,并強調指出,大數(shù)據(jù)不僅改變了商業(yè)的運營模式,而且改變了醫(yī)療研究的進行方式。與此同時,它也引起了一些重要的倫理問題,作者據(jù)此對斯諾登事件、數(shù)據(jù)安全,以及家庭智能設備可能被黑客挾持等實例進行了討論。
大數(shù)據(jù)在21世紀的頭二十年已經(jīng)深深地改變了我們的生活和工作,而且這種改變還將繼續(xù)深入下去,未來充滿了不確定。然而,大數(shù)據(jù)給我們帶來生活便利的同時,也給我們帶來對侵犯隱私的恐懼。雖然我們無法完全把握大數(shù)據(jù)專家們會將算法引向何方,但了解一些大數(shù)據(jù)的基本知識,至少可以讓我們減少一些內心的不安。本書以簡短的篇幅,以通俗易懂的方式,探討了當下炙手可熱的大主題。
序 言
王崇駿
四方上下曰宇,往來古今曰宙!
從137億年前宇宙大爆炸,到46億年前地球誕生,再到38億年前地球上開始有生命,直至約6000年前文字的出現(xiàn)開啟了人類文明,這是一個多么漫長的過程!與其他物種大多通過遺傳進化不同,人類在進化過程中發(fā)展和演化出了一種非遺傳性的繼承:通過獨一無二且日益發(fā)達的文化媒介(語言、文字以及有意識地利用外在物和工具的特質)將知識留給后代。這種文化傳承使得人類可以快速進化,并最終成為這個星球的“統(tǒng)治者”。
在漫長的人類文明發(fā)展史中,從源自動物性的“數(shù)覺”到為了“征服”自然界,人類開始對“數(shù)”產生了需求,并且隨著這種需求的逐步膨脹,一系列的工具、算法、設備被不斷發(fā)明和創(chuàng)造,比如早期的計時工具、計數(shù)工具,以及諸如算籌、算盤等算術工具。隨著計算理論的豐富,以及機械工藝的進步,人們開始思考如何用更為精巧的設備進行計算,如納皮爾籌、機械尺、機械計算機等;而圖靈機理論的發(fā)明、馮諾伊曼體系結構的提出,以及1946年ENIAC的發(fā)明,則讓數(shù)字計算時代就此來臨。
在后ENIAC時代,計算機從最開始的軍用走向了民用,其功能不斷發(fā)展和豐富,從最開始的數(shù)值計算走向網(wǎng)絡通信、計算感知,并逐漸應用于生活娛樂和企業(yè)管理。與此同時,也因為計算機在各個領域的滲透和深入應用,計算機從最原始的計算工具變?yōu)橐粋研究對象,伴隨著各類計算理論的發(fā)展,計算機科學與技術、工程和應用也得到持續(xù)的發(fā)展和推進。在這個發(fā)展過程中,傳統(tǒng)的“數(shù)”的內涵,也從最開始的“數(shù)值”不斷拓展,數(shù)據(jù)開始以不同的類型、模態(tài)、視圖樣式出現(xiàn),并服務于人們的需求,傳統(tǒng)意義的“數(shù)值”則成為一種數(shù)據(jù)類型。
信息技術,尤其是互聯(lián)網(wǎng)技術的迅猛發(fā)展,煙囪式軟件開發(fā)模式、云計算在不同領域的不斷滲透,以及人們日益多樣化和碎片化的行為方式,或許還有其他更多的原因,讓人們在數(shù)據(jù)層面不得不面對“大數(shù)據(jù)”這樣的難題,即難以在期望的時間內利用常規(guī)工具進行有效處理并獲得期望的價值。在當下的大數(shù)據(jù)時代,傳統(tǒng)意義的“數(shù)據(jù)”成為一種可以交易的“資產”,一種具有戰(zhàn)略資源意義的“石油”,一種提高競爭力的“資本”,一種用于科學研究的“第四范式”。出于對大數(shù)據(jù)價值期望的共同追求,社會各界都對大數(shù)據(jù)產生了極大的興趣、熱情和期盼,使得“大數(shù)據(jù)”這個概念從其誕生之日起,就得到了“政、產、學、研、商、用”的一致認同,并引起了包括哲學家、科學家、技術研究者和工程研發(fā)人員等的普遍關注。
牛津通識讀本《大數(shù)據(jù)》一書,當然也是對這一社會關注點的回應。道恩??E.霍爾姆斯教授是貝葉斯網(wǎng)絡、機器學習和數(shù)據(jù)挖掘方面的專家,她用深入淺出的文字扼要介紹了什么是數(shù)據(jù)、什么是大數(shù)據(jù)以及它有什么意義,進而對大數(shù)據(jù)應用所涉及的存儲和分析技術進行了簡明扼要的綜述,并在此基礎上,分析和研判了大數(shù)據(jù)在醫(yī)學、電子商務、安全、生活等各個領域的應用。這樣一本概述性質的通俗讀物,非常有助于普通讀者更多地了解大數(shù)據(jù),學習大數(shù)據(jù),應用大數(shù)據(jù),進而培養(yǎng)一種大數(shù)據(jù)思維,惟其如此,才能適應未來的大數(shù)據(jù)時代。
對于本書所涉及的內容,筆者還想做一些補充說明,即看待大數(shù)據(jù)的三個視角和四個維度,以使讀者對于大數(shù)據(jù)的認識更加全面。首先談談三個視角。
一是計算視角:從計算視角來看,大數(shù)據(jù)是一個難以獲取、難以組織與管理、難以處理和分析的技術難題(以及因此而引發(fā)的各類思維層難題),也正是因為這樣的難題驅動,加之人們對大數(shù)據(jù)在優(yōu)政、興業(yè)、科研、惠民等不同領域的價值期望,促使相關科研人員進行技術攻關和發(fā)明創(chuàng)造,進而推進了相關理論和技術的發(fā)展。
二是科研視角:從科學研究的角度來看,大數(shù)據(jù)成為繼實驗、理論、模擬之后用于科學研究的“第四范式”(此處的“范式”指的是從事某一科學的科學家群體所共同遵從的世界觀和行為方式)。
三是商業(yè)視角:從商業(yè)應用的角度來看,大數(shù)據(jù)能夠帶來利潤。一般而言,只要找到一個合適的應用場景,能夠為這個應用場景找到一個合適的解決方案,知道數(shù)據(jù)的來源并且能夠獲取,而且有技術支撐(研發(fā)能力),更重要的是能夠找到融資支持(經(jīng)過可行性分析、盈虧平衡分析等之后),就有可能最終成功應用并獲得收益。這在彰顯大數(shù)據(jù)商業(yè)價值的同時,也會促使同行去挖掘更多的大數(shù)據(jù)價值。
更進一步說,大數(shù)據(jù)的價值實現(xiàn),涉及數(shù)據(jù)、技術與應用的協(xié)同,具有典型的多學科交叉與跨界整合特征,因此就總體而言,大數(shù)據(jù)價值的實現(xiàn)至少涉及如下四個維度(層面)。
1.算法(Algorithm):大數(shù)據(jù)價值的實現(xiàn)路徑涵蓋了數(shù)據(jù)采集與匯聚、數(shù)據(jù)存儲與管理、數(shù)據(jù)處理與分析、應用系統(tǒng)開發(fā)與運維,每一個環(huán)節(jié)都需要依賴不同的算法進行,如數(shù)據(jù)采集算法、數(shù)據(jù)匯聚算法、數(shù)據(jù)治理算法、數(shù)據(jù)處理和分析算法等。
2.商業(yè)應用(Business):大數(shù)據(jù)應用一般體現(xiàn)在描述性分析、預測性分析或者決策性分析等,任何一種應用都是圍繞某個具體場景展開的,因此大數(shù)據(jù)價值得以實現(xiàn)的一個重要前提,是找到一個合適的應用場景,該應用場景既直擊需求痛點并有投資回報預期,又有數(shù)據(jù)積淀和IT建設基礎。大數(shù)據(jù)在這個場景的應用,能夠進一步內生和富集更多數(shù)據(jù)并因而形成數(shù)據(jù)閉環(huán),就能進一步體現(xiàn)和實現(xiàn)大數(shù)據(jù)價值。
3.算力(Computing Power):所謂算力,指的是設備的計算能力,顯然,對于大數(shù)據(jù)應用而言,更精準(復雜)的算法以及更高效的計算需求都需要強大的算力支撐,因此算力是大數(shù)據(jù)價值實現(xiàn)的基本保障。
4.數(shù)據(jù)(Data):數(shù)據(jù)是大數(shù)據(jù)價值實現(xiàn)的基礎,因此必須首先解決諸如數(shù)據(jù)在哪以及如何從不同的數(shù)據(jù)源獲取數(shù)據(jù),并進行有效的富集、匯聚和深入加工等問題,從而為應用提供數(shù)據(jù)支撐或高級語義支撐。
2017年,中國政府發(fā)布了“新一代人工智能規(guī)劃”,明確提出了大數(shù)據(jù)智能這一概念,其內涵在于形成從數(shù)據(jù)到知識、從知識到智能的能力,打穿數(shù)據(jù)孤島,形成鏈接多領域的知識中心,支撐新技術和新業(yè)態(tài)的跨界融合與創(chuàng)新服務。顯然,大數(shù)據(jù)智能進一步明確了,在上述四個維度共同發(fā)力的基礎上實現(xiàn)大數(shù)據(jù)價值的基本路徑。
此外,筆者還想提請讀者注意的是,數(shù)據(jù)的本質是行為主體(例如人)在進行各類活動(生活、工作、娛樂)時的行為、偏好等痕跡被業(yè)務系統(tǒng)(或互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等)地記錄在各個服務器里。因此,數(shù)據(jù)本身暗含著行為主體的隱私,所以圍繞大數(shù)據(jù)價值的實現(xiàn),數(shù)據(jù)隱私與安全保護是一個不可回避的重要內容。這一點在《大數(shù)據(jù)》一書中也有專章介紹。2018年5月25日,歐盟《通用數(shù)據(jù)保護條例》(簡稱GDPR)正式實施,在全球范圍內掀起了數(shù)據(jù)保護改革的浪潮。在數(shù)據(jù)全球化深入發(fā)展的當下,如何在后GDPR時代建立起一套數(shù)據(jù)保護法律體系,既符合國際最佳立法實踐又符合本國國情,既能為個人權益、數(shù)字經(jīng)濟、國家安全等系列利益保駕護航,又能在國際數(shù)據(jù)規(guī)則制定中占有話語權,也成為各國政策制定者普遍關注的領域。
通讀《大數(shù)據(jù)》一書,縈繞于筆者心中的問題是:大數(shù)據(jù)會讓我們的生活變得更好嗎?如何才能讓我們的生活變得更好呢?在閱讀本書的過程中,筆者能夠感覺到作者在成文時力求做到“在不犧牲準確性的前提下,盡可能寫得簡單”,同時又能做到周全和清晰。因此,本書尤其適合對大數(shù)據(jù)有興趣的初學者,其真正的意義在于:為你打開了一扇門,并言明了很多方向。
于南京九鄉(xiāng)河
2020年7月12日
道恩??E.霍爾姆斯,現(xiàn)任教于美國加利福尼亞大學圣巴巴拉分校應用概率與統(tǒng)計學系,主要研究領域為貝葉斯網(wǎng)絡、機器學習和數(shù)據(jù)挖掘等;魻柲匪故请姎怆娮庸こ處煂W會高級會員、《基于知識的智能信息系統(tǒng)國際期刊》副主編,并與他人合編了三卷本著作《數(shù)據(jù)挖掘:基礎和智能范例》(2014)。
前 言
致 謝
第一章 數(shù)據(jù)爆炸
第二章 大數(shù)據(jù)為什么不一般?
第三章 大數(shù)據(jù)存儲
第四章 大數(shù)據(jù)分析法
第五章 大數(shù)據(jù)與醫(yī)學
第六章 大數(shù)據(jù),大商務
第七章 大數(shù)據(jù)安全與斯諾登事件
第八章 大數(shù)據(jù)與社會
字節(jié)大小量表
小寫英文字母ASCII碼表
索 引
英文原文