對“偽大數據”說不:走出大數據分析與解讀的誤區(qū)
定 價:55 元
- 作者:[美]馮啟思(Kaiser Fung)
- 出版時間:2015/1/1
- ISBN:9787300203676
- 出 版 社:中國人民大學出版社
- 中圖法分類:H31
- 頁碼:
- 紙張:膠版紙
- 版次:1
- 開本:16開
從另一個角度認識大數據的力量,帶我們走出大數據分析與解讀的誤區(qū),幫助我們培養(yǎng)出數字直覺。
我們生活在大數據的時代,在本書中,統(tǒng)計學專家馮啟思將告訴你在什么時候可以接受大數據“專家”的結論,什么時候要對這些統(tǒng)計數字提出質疑。他深入人們日常生活和工作中廣泛關注的話題,如學校排名、健康指數、就業(yè)統(tǒng)計、團購網站等,通過對這些數據的分析與解讀來告訴人們什么才是正確的答案,如何才能培養(yǎng)出數字直覺。作者還在書中告誡人們在當今這個信息超載的時代,媒體充斥著各種不良信息,千萬不要輕易地信以為真,要學會對“偽大數據”說不!
暢銷書《數據統(tǒng)治世界》作者、美國紐約大學統(tǒng)計學權威教授、超高人氣的博客“垃圾圖表”博主最新力作! 引領你撥開大數據分析的層層迷霧,幫你認清大數據分析與解讀背后的真相。 在這個充滿數據的世界里,我們不僅要讓數據為我們所用,更要擦亮雙眼,培養(yǎng)敏銳的“數字直覺”,在別人為大數據大唱贊歌的時候,保持清醒,甄別其中的真?zhèn)巍?
馮啟思(Kaiser Fung)是一位專業(yè)的統(tǒng)計學家,在市場營銷和廣告領域中,擁有超過15年的應用統(tǒng)計學方面的經驗,曾任職于美國天狼星衛(wèi)星廣播公司、美國運通公司、[x+1]公司、Exodus通信公司、美國圣思網絡公司等知名企業(yè)。他也是紐約大學的兼職教授,教授實用統(tǒng)計學,還是人氣博客“垃圾圖表”(Junk Charts Blog)的博主,率先對大眾傳媒領域的數據和圖表進行了重要研究,并出版了一本廣受贊譽的圖書——《數據統(tǒng)治世界》。
第一部分
關于社會大數據的解讀 /1
第1 章 法學院院長互發(fā)垃圾郵件為哪般 /3
當一天招生辦主任
偽造、精挑細選和換牌游戲
正在消失的行為、不限量、學校之間的聯系以及部分得分
制造工作數據
問卷生存游戲、秘密協議、有提示的記憶
牽連共犯
法學院逃過經濟衰退一劫
塞克斯頓主義
無濟于事
第2 章 新的統(tǒng)計數據真的能讓我們瘦下來嗎 /47
減肥餐的致命弱點
身高體重指數 第一部分
關于社會大數據的解讀 /1
第1 章 法學院院長互發(fā)垃圾郵件為哪般 /3
當一天招生辦主任
偽造、精挑細選和換牌游戲
正在消失的行為、不限量、學校之間的聯系以及部分得分
制造工作數據
問卷生存游戲、秘密協議、有提示的記憶
牽連共犯
法學院逃過經濟衰退一劫
塞克斯頓主義
無濟于事
第2 章 新的統(tǒng)計數據真的能讓我們瘦下來嗎 /47
減肥餐的致命弱點
身高體重指數
被誤用的測量
需要解決的難題
真正的難題在哪里
維持新體重的最后一搏
第二部分
關于營銷大數據的解讀 /73
第3 章 脫銷是如何毀掉一家企業(yè)的 /75
盈利與虧損的分界線
網絡營銷真的那么管用嗎
第4 章 個性化銷售真的能挽救高朋嗎 /97
通過電子郵件檢索
失敗的樂趣
當米蘭達遇見帕特里克
高朋的目標客戶到底在哪里
高朋模式需要更多的新客戶
高朋的定位
成長的陣痛
第5 章 營銷人員為何給你發(fā)混合型的推銷信息 /119
超特大號(XXL)提包是如何泄露你的秘密的
商家都了解你的什么
傳遞混合信息的科學性
大數據是救世主嗎
第三部分
關于經濟大數據的解讀 /137
第6 章 要是沒人能夠申請,這還算新工作嗎 /139
找借口
是否需要進行季度性調整
這條魚變質了
華盛頓過去的那些漂亮的統(tǒng)計數據
克魯德爾稱之為“哎呦”
第7 章 你買雞蛋花了多少錢 /167
有些你看見了,有些你沒看見
對被平均化的不滿
誰的核心
鉆啊,孩子,鉆啊
對平均數的懼怕
第四部分
關于體育大數據的解讀 /189
第8 章 你是好教練還是好經理 /191
邀請統(tǒng)計學家進入你家廚房
生活在夢幻游戲之外
首先看一下教練
再看一下教練能力
杰伊為何要忽略自己的建議
被總經理所禁錮
命運
接下來在家里會發(fā)生什么
后記 在大數據時代生存下去 /221
[美其名曰] 大數據科學家生活中的三個小時
三天與6 000個詞的較量
我們生活在一個任何人都無法擺脫數據的大數據時代。數據越多,人們做出的分析就越多——呈現指數增長;人們分析得越多,制造出的煙幕彈也就越多。因此,保持清醒的頭腦就變得非常重要。
大數據是高科技時代的流行語,它大約出現在2010 年。這個行業(yè)喜歡將兩個詞組織起來表達一個概念,就跟史蒂文· 西格爾(Steven Seagal)喜歡用兩個詞為他的電影命名一樣。大數據是“寬
帶”、“無線”、“社交媒體”或“網站”這類新概念的后裔。它表示海量的數據,僅此而已。
隸屬于被譽為“傳奇”的麥肯錫管理咨詢公司的麥肯錫全球研究院談起“大數據”時說道:“這個概念指的是那些規(guī)模巨大到通常的數據處理軟件都無法捕捉、存儲、管理和分析的數據集!备鶕2011 年其發(fā)表的第一份“大數據”報告,這些研究者所認為的“大”是指每家企業(yè)所擁有的數據達到幾十個乃至上千太字節(jié)(Terabyte)。
我們對“大數據”的理解要比工業(yè)標準更全面。我們之所以關心這個問題,不是因為數據越來越多,而是因為對數據的分析越來越多了。我們不得不投入更多的人手以便能更多、更快地分析數據。真正驅動我們這樣做的不是數據的數量而是數據的價值。如果我們想深入研究失業(yè)、通貨膨脹或者其他經濟指標,我們可以從美國勞工統(tǒng)計局(the Bureau of Labor Statistics)的網站上下載大量的數據集。如果某位紐約居民對某飯店的“B”健康等級感興趣,他就可以在紐約市的健康與心理衛(wèi)生部(Department of Health and Mental Hygiene)的在線數據庫中,查閱違規(guī)飯店名單。幾年前,當豐田汽車被接連曝出存在突然加速的隱患時,我們了解到美國國家公路交通安全管理局(National Highway Traffic Safety Administration)設立了一個開放資源中心,用來存儲關于駕駛員安全方面的投訴。自1990 年代初,任何人都可以從雅虎財經、億創(chuàng)理財(E*Trade)等網站上,下載到股票、共同基金以及其他金融產品的運作情況。有時,甚至連公司也會參與其中,使得一些專有的數據公開化。2006 年,美國最大的在線DVD 租賃商奈飛公司(Netflix)統(tǒng)計并發(fā)布了1 億部電影的分類等級,并征募科學家來改進預測算法。玩家們通過研究統(tǒng)計數字來獲得競爭優(yōu)勢,從而將“夢幻體育”(Fantasy Sports)這個游戲推到了一個新的高度。那些過去印刷在紙版書的數據,如今以電子表格的形式在互聯網上迅速傳播。數據是免費的,又很容易獲得,這必然會產生更多的數據分析。
比爾· 蓋茨是美國企業(yè)成功故事的典型代表。這個絕頂聰明的孩子,大學中途退學,創(chuàng)辦自己的軟件公司。而且他們公司開發(fā)的軟件,最終用在了世界90% 的電腦上,比爾也因此賺到了數十億美元的財富。后來,他退出江湖,將大部分財富捐獻給慈善事業(yè)。比爾以自己和妻子的名義成立了“比爾& 梅琳達· 蓋茨基金會”(Bill & Melinda Gates Foundation)。而且我們很高興地看到該基金會在許多領域進行了大膽投資。它涉足的領域包括在發(fā)展中國家進行瘧疾預防,在美國進行中學改革,以及對艾滋病(HIV/AIDS)的研究。蓋茨基金會因依靠數據來做出明智的決定,從而贏得了良好的聲譽。
但這并不意味著他們不會犯錯。蓋茨在千禧年開始之際,大力支持小型學校運動,他在全美范圍內選出了一些學校,并往這些學校投入了上億美元。證據A 是當時的一項統(tǒng)計發(fā)現:在全美表現最好的學校中,小型學校所占的比例不均衡。例如,在賓夕法尼亞州,按照五年級的閱讀成績評出的前50 所學校中,12% 是小型學校。要是學生的成績跟學校的規(guī)模無關,那么規(guī)模大的學校在這50 所名校中所占的比例應該是小型學校的四倍。因此,學校規(guī)模被認為是影響教學質量的重要因素——每個年級最多不能超過100 名學生。而蓋茨基金會設計的一套改造方案,就是將大型學校拆分成更小、更高效的小型學校。
舉例來說,2003 年新學年伊始,在華盛頓的芒特萊克泰勒斯高中(Mountlake Terrace High School)讀書的1 800 名學生發(fā)現,自己的學校被分成了五所小型學校,學校的名字分別叫做“發(fā)現學校”、“改革學!薄ⅰ皬团d學!钡。不過,校址沒有改變,還是在以前的大樓里。蓋茨基金會教育處執(zhí)行主任湯姆· 范德· 阿爾克(Tom Vander Ark)解釋說:“大多數窮人家的孩子,不得不進規(guī)模大的學校念書,在那里沒人認識他們,他們被甩進了一條難以出頭的死路……小型學校只不過營造了一個(比大型學校)更好的成長環(huán)境。在那里,比較容易形成積極的氛圍,產生較高的期望值,也更容易優(yōu)化課程設置,改進教學質量!
十年以后,蓋茨基金會卻發(fā)生了徹底的轉變,它不再將學校的規(guī)模視為解決學生成績問題的唯一方法,而開始致力于設計富有新意的課程以及提升教學質量。蓋茨基金會對學校重組前后的效果進行了細致的調查研究,結果發(fā)現,重組后的學校平均成績沒有變得更好,相反,在某些個例中變得更差了。
統(tǒng)計學家霍華德· 魏訥(Howard Wainer)在美國教育考試服務中心(Educational Testing Services)度過了最好的職業(yè)生涯。魏訥曾抱怨道:“這數百萬美元的錯誤,本來是可以避免的!痹谏厦嫣岬降膶e夕法尼亞州的學校進行的同一分析中,魏訥指出,雖然小型學校在前50 所學校中占了12% 的份額,但同時要看到,在后50 所學校中,有18% 是小型學校。簡單來說,小型學校在這個分布的兩端所占的比例都偏高。不管強調哪一部分數據,分析師們都會得出完全相反的結論。在對飛機晚點的研究中,我們見過類似的情況。問題的關鍵不在于多少數據被分析,而是被如何分析。
蓋茨基金會的故事證明了另外一點:數據分析是一件棘手的事,無論是權威專家還是經驗豐富的行家,都不能擔保不出錯。不管一個人的腦袋瓜多么靈光,總會有一定的犯錯范圍。這是因為,沒有人能夠掌握所有信息!澳鞘窃陧敿馄诳习l(fā)表的”、“別瞎懷疑了,登在這本期刊上的文章難道會有錯?!”這樣的話經常拿來當做堵住別人嘴巴的借口。生活在大數據時代,只有傻瓜才會采取這種態(tài)度。你聽說過很多研究,試圖在某種疾病與某種基因之間建立聯系,比如,帕金森癥和高血壓?墒,你知道嗎?經過同行評審、并得到同行認可的遺傳學關聯性研究成果,只有30% 能被后續(xù)的研究證實,其余的都是假陽性結果(false-positive result)。那些聲稱是原創(chuàng)性的研究成果,還沒來得及出版勘誤表,就已經被推翻了。不過,話又說回來,我還是希望專家能發(fā)表一些質量稍高的分析報告。
大數據在因果關系這個問題上,實際上沒什么好講的。不過,存在一種普遍的誤解,以為海量的數據流能夠將隱藏著的“因果關系”沖出地面。請想一下點擊流吧,網絡營銷人員借助點擊追蹤網絡用戶,來以此證明網絡營銷是成功的。顧客點擊了一個網頁橫幅廣告或者搜索廣告,然后下了訂單,這不就足以證明網絡營銷成功了嗎?還需要什么更有力的證據嗎?現實情況遠非如此簡單明了。比方說,我在網上點了一個三星蓋世(Galaxy)的橫幅廣告,隨后將這款手機放進了購物車。一個星期后,我觀看了他們抨擊蘋果的廣告,覺得很過癮,于是,我回到三星的網店完成了這筆交易。分析人員在仔細分析網絡日志時,不但會漏掉促使我行動的真實原因,而且會犯假陽性錯誤,將橫幅廣告跟此次購買行為捆綁在了一起。因為網絡營銷人員能看到的只有這些。這些小問題在網絡分析員的生活中稀松
平常。
大數據不僅意味著有更多好的分析,也意味著會有更多壞的分析。要知道,即便是專家和技術大牛也有掉鏈子的時候。如果一些不好的數據被心懷叵測的可疑人員添油加醋地利用,事情會變得更糟糕;不過,即便是動機純潔的分析人員稍有不慎也會上當受騙。在這個充滿數據的世界中,消費者得有一副火眼金睛才行啊!
大數據是真實的,而其影響更是廣泛的。至少,我們每個人都是數據分析的消費者。因此,我們必須學會成為一個聰明的消費者。我們需要具備的是一種數字直覺。
數字直覺是我在招聘數據分析員時最為看重的一種品質。它能將真正的天才從“還不錯”中區(qū)別開來。我希望在應聘者身上發(fā)現三樣東西:一個是數字直覺,其他兩樣分別是技術能力跟商業(yè)思維。有些人可能在編程方面無人能敵,但卻沒有一點數字直覺;有些人可能是個講故事的高手,能將一個個的情節(jié)串聯起來,但是卻沒有任何數字直覺。數字直覺是第三維度。
我寫作這本書的目的是引你上路。本書的每一章都是由近期讀到的一則新聞觸發(fā)靈感而寫成的。在這些新聞故事中,有人提出了一些觀點,并且援引數據來證明自己的觀點。我通過提一些尖銳的問題,檢查一致性,數理論證,有時候,也會通過獲取并分析相關數據,來展示我是如何驗證這些觀點的。比如,我會質疑高朋(Groupon)的商業(yè)模型有意義嗎?一種檢測肥胖的新方法能解決我們最大的健康危機嗎?克萊蒙德麥肯那學院(Claremont McKenna College)在學院排名游戲中小規(guī)模作弊了嗎?政府公布的通脹跟失業(yè)數據值得信任嗎?我們如何評價夢幻體育聯盟的表現?當商家通過追蹤我們的活動來實現個性化營銷時,我們會從中受益嗎?
即使是專家有時候也會掉進數據的陷阱中。如果我在這本書里面也犯了此類的錯誤,那么責任完全在我。要是我沒有把觀點講得足夠清楚,那就意味著這些數據的分析方法不止一種。我鼓勵你們形成自己的觀點。只有通過這樣的練習實踐,才能培養(yǎng)出你自己的數字直覺。
歡迎來到大數據時代,不過,要處處留神才是!