前 言
當(dāng)一個(gè)觀點(diǎn)不能被洞察和理解時(shí),這種觀點(diǎn)就會(huì)變得危險(xiǎn)。
—馬歇爾·麥克盧漢
本書是為產(chǎn)品分析從業(yè)者設(shè)計(jì)的一本從業(yè)指南,主要講解如何基于消費(fèi)者數(shù)據(jù)生成可實(shí)踐的洞見。這些“可實(shí)踐的洞見”源自曾經(jīng)在Web產(chǎn)品、移動(dòng)產(chǎn)品或整個(gè)組織中驅(qū)動(dòng)過變革的實(shí)踐。很多組織都曾從其Web產(chǎn)品或內(nèi)部組織獲得了TB級(jí)的用戶數(shù)據(jù),然而這些數(shù)據(jù)都未曾被使用過。怎樣使用這些數(shù)據(jù)促進(jìn)用戶增長,增加收入,提升用戶參與度并提高組織效率,組織并沒有認(rèn)真思考過。
本書將教你逐步地從用戶數(shù)據(jù)中收獲洞見。通過精心分析基于用戶數(shù)據(jù)理論曲線構(gòu)建的高峰和低谷,觀察不同實(shí)驗(yàn)設(shè)計(jì)產(chǎn)生的實(shí)驗(yàn)效果,再在復(fù)雜的開發(fā)模式上實(shí)現(xiàn),最終將這些結(jié)果轉(zhuǎn)化為可實(shí)踐的洞見。本書是一個(gè)產(chǎn)品數(shù)據(jù)科學(xué)工具包的入門級(jí)教程。
數(shù)據(jù)科學(xué)是一個(gè)多學(xué)科交叉領(lǐng)域,其目標(biāo)就是從數(shù)據(jù)中收獲洞見。數(shù)據(jù)科學(xué)產(chǎn)品的重心是利用用戶數(shù)據(jù)來驅(qū)動(dòng)產(chǎn)品和組織變革,以實(shí)現(xiàn)核心業(yè)務(wù)目標(biāo)。它強(qiáng)調(diào)使用先進(jìn)的分析策略來理解用戶并改變用戶,從而幫助初創(chuàng)企業(yè)和大型公司構(gòu)建符合市場(chǎng)的產(chǎn)品,并超額完成銷售目標(biāo)。注意,本書不涉及其他數(shù)據(jù)科學(xué)工作流程,例如構(gòu)建可擴(kuò)展的推薦系統(tǒng)、計(jì)算機(jī)視覺和圖像識(shí)別或其他類型的應(yīng)用程序。
數(shù)據(jù)科學(xué)中涉及的分析數(shù)據(jù)來源非常多。通常情況下,這些數(shù)據(jù)可能是來自Web產(chǎn)品的用戶數(shù)據(jù),也可能是電子郵件或郵寄廣告類的數(shù)據(jù)、調(diào)查數(shù)據(jù)、公司內(nèi)部數(shù)據(jù)或營銷綜合數(shù)據(jù),還可能是人口統(tǒng)計(jì)或普查數(shù)據(jù),以及各種其他類型的數(shù)據(jù)等。
讀者對(duì)象
本書的目標(biāo)讀者包括企業(yè)家、數(shù)據(jù)科學(xué)家、分析師,以及所有利用用戶數(shù)據(jù)來推動(dòng)Web產(chǎn)品或移動(dòng)產(chǎn)品的用戶增長、收入增加、效率或用戶參與度提高的從業(yè)人員。如果你想成為產(chǎn)品數(shù)據(jù)科學(xué)家、產(chǎn)品數(shù)據(jù)分析師、建立企業(yè)網(wǎng)站或Web產(chǎn)品的企業(yè)家,又或者對(duì)處理Web上可用的TB級(jí)行為數(shù)據(jù)感興趣,那么這本書很適合你。這本書是為從業(yè)者編寫的,不適合學(xué)術(shù)讀者。如果你想了解現(xiàn)實(shí)世界中的產(chǎn)品數(shù)據(jù),那么本書就再合適不過了。
產(chǎn)品數(shù)據(jù)科學(xué)要從用戶行為中獲取洞見,這依賴于多門學(xué)科知識(shí)。雖然分析工具包更現(xiàn)代化,但它仍然依賴計(jì)算方法和統(tǒng)計(jì)方法,會(huì)涉及一些新的機(jī)器學(xué)習(xí)和因果推斷技術(shù)。在過去的400年,社會(huì)科學(xué)家一直在研究人類行為,“可實(shí)踐的洞見”還需要充分整合社會(huì)科學(xué)方法和分析工具才能得以生成。
通常,從業(yè)人員只使用一種工具包,不會(huì)同時(shí)使用多個(gè)工具包。許多數(shù)據(jù)科學(xué)家精通最新的機(jī)器學(xué)習(xí)技術(shù),但是缺乏用戶專業(yè)知識(shí)和定性技能,導(dǎo)致不能使用這些技術(shù)從用戶數(shù)據(jù)中提取“可實(shí)踐的洞見”。當(dāng)面臨開發(fā)大量社會(huì)過程理論和將概念落實(shí)到具體實(shí)踐時(shí),他們常常會(huì)陷入困境。
相比之下,許多對(duì)人類行為有充分了解的用戶專家,由于缺乏統(tǒng)計(jì)和機(jī)器學(xué)習(xí)的知識(shí),因此無法充分測(cè)試他們的想法和模型數(shù)據(jù)。本書的目標(biāo)是為主題專家和機(jī)器學(xué)習(xí)專家架起一座橋梁,將主題專家的上下文洞察力與機(jī)器學(xué)習(xí)專家的復(fù)雜方法相結(jié)合,從而在Web或移動(dòng)分析領(lǐng)域生成有意義的洞見。
本書內(nèi)容
本書結(jié)合Web分析領(lǐng)域的實(shí)際案例介紹 :
如何像社會(huì)科學(xué)家一樣思考,將社會(huì)環(huán)境中的個(gè)人行為情景化,探索人類行為的發(fā)展方式,并為改變行為創(chuàng)造條件;
如何為Web產(chǎn)品定制核心指標(biāo)和用戶分析的關(guān)鍵績(jī)效指標(biāo);
如何理解統(tǒng)計(jì)推斷、相關(guān)性和因果關(guān)系間的差異,以及在何時(shí)應(yīng)用這些技術(shù);
如何進(jìn)行更有效的A/B 測(cè)試;
如何構(gòu)建直觀的預(yù)測(cè)模型,幫助捕獲產(chǎn)品中的用戶行為;
如何使用準(zhǔn)實(shí)驗(yàn)設(shè)計(jì)技術(shù)和統(tǒng)計(jì)匹配技術(shù),從觀察數(shù)據(jù)中梳理出因果關(guān)系;
如何實(shí)施復(fù)雜的目標(biāo)定位方法,例如針對(duì)營銷活動(dòng)的增益建模;
如何使用高級(jí)人口預(yù)測(cè)方法,預(yù)測(cè)業(yè)務(wù)成本和人口子群體之間的變化關(guān)系。
本書主題
本書包含3個(gè)主題:
(1)將社會(huì)學(xué)、心理學(xué)和人口統(tǒng)計(jì)學(xué)的定性工具與統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)和計(jì)算機(jī)科學(xué)的定量工具進(jìn)行整合,應(yīng)用于Web分析領(lǐng)域。
(2)因果推斷(不是預(yù)測(cè))方法,它對(duì)于改變?nèi)祟愋袨椴豢苫蛉薄?br />
(3)以非數(shù)學(xué)解釋和R語言演示應(yīng)用程序的方式討論機(jī)器學(xué)習(xí)和因果推斷主題。因?yàn)檫@些領(lǐng)域的大多數(shù)著作都不是為從業(yè)者編寫的。
主題1:定性工具與定量工具
第一個(gè)主題是本書的核心。該部分的目標(biāo)不僅是為讀者提供分析工具,還為讀者提供應(yīng)用這些分析工具和示例所需的資源。這些工具和示例最適合用于Web應(yīng)用程序。數(shù)據(jù)科學(xué)或機(jī)器學(xué)習(xí)領(lǐng)域中的許多書籍都只是簡(jiǎn)單地介紹了底層算法。盡管這些算法確實(shí)發(fā)揮了重要的作用,但我的腦海不禁浮現(xiàn)出“垃圾進(jìn),垃圾出”這句話。沒有適當(dāng)?shù)臄?shù)據(jù),算法將毫無用處。將錯(cuò)誤的算法應(yīng)用于錯(cuò)誤的問題可能會(huì)導(dǎo)致一大堆問題。
要正確應(yīng)用算法或設(shè)計(jì)實(shí)驗(yàn),我們需要回顧一下整個(gè)過程:理論構(gòu)建、概念化、操作化、指標(biāo)構(gòu)建、假設(shè)檢驗(yàn)、證偽等。我們可以使用大量定性工具來準(zhǔn)確地模擬人類行為和社會(huì)過程。如果不使用這些工具,就會(huì)丟失大量的信息、細(xì)微差別和洞見,還可能完全誤解用戶在我們的Web產(chǎn)品中的行為。第1~3章主要向讀者介紹那些用來理解和建模用戶行為的定性工具。
獲得可實(shí)踐的洞見需要了解上下文和每個(gè)變量中存儲(chǔ)的信息。如果無法清楚地將概念想法與分析結(jié)果關(guān)聯(lián)起來,那么什么結(jié)論也獲取不到。我的一個(gè)好朋友擁有物理學(xué)博士學(xué)位,他目前在一家女裝公司擔(dān)任數(shù)據(jù)科學(xué)家,正好面臨這樣的情況。他熱愛物理學(xué),也喜歡將物理學(xué)算法應(yīng)用于各種數(shù)據(jù)集,但他很難將結(jié)果與具體的商業(yè)環(huán)境聯(lián)系起來。我經(jīng)常會(huì)問他對(duì)女裝業(yè)務(wù)有何見解,但他總是回答說,他通過“一些極其復(fù)雜的調(diào)整”應(yīng)用了最新的“ X”模型。盡管將復(fù)雜的、經(jīng)過優(yōu)化的算法應(yīng)用于正確的上下文非常棒,但這些算法也有可能被應(yīng)用于錯(cuò)誤的數(shù)據(jù)集,還可能被人們用來掩蓋自己對(duì)于某個(gè)主題缺乏真正洞見的事實(shí)。
“可實(shí)踐的洞見”實(shí)際上并不依賴于人們是否使用最新的算法。通常來說,好的算法的確能稍微改善結(jié)果,但是一旦使用錯(cuò)誤的數(shù)據(jù),獲得有價(jià)值洞見的希望將會(huì)徹底破滅。還有一個(gè)問題是人們對(duì)準(zhǔn)確數(shù)據(jù)的誤解,這在行業(yè)中非常普遍。
因此,在開始數(shù)據(jù)分析之前,選一個(gè)好的定性方法是非常重要的,這樣就可以避免以
“垃圾出”告終。不過,由于原始數(shù)據(jù)通常不容易被記錄,因此由變量測(cè)量或統(tǒng)計(jì)的內(nèi)容就很容易被誤解。我們必須準(zhǔn)確理解用戶采取哪些必要步驟才能獲得特定變量,以及用戶完成哪些操作后才能獲得特定的變量結(jié)果。如果用變量代表一個(gè)概念復(fù)雜的想法,那么這個(gè)變量實(shí)際上測(cè)量的是這個(gè)概念的哪些部分呢?適當(dāng)?shù)鼐邆湎嚓P(guān)的理論知識(shí)和正確的定性框架知識(shí),便能對(duì)數(shù)據(jù)進(jìn)行更合理的解釋和更正確的使用。
主題2:因果推斷
第二個(gè)主題更偏重于因果推斷,而不是預(yù)測(cè)。許多數(shù)據(jù)科學(xué)書籍都專注于預(yù)測(cè)算法。本書提供了由以下算法組成的基本預(yù)測(cè)工具包:k均值、主成分分析(PCA)、線性回歸、邏輯回歸、決策樹、支持向量機(jī)以及一些時(shí)間序列建模技術(shù)。更高級(jí)的主題(例如雙重差分模型、統(tǒng)計(jì)匹配和增益模型)都與因果推斷相關(guān)。
不過,我們?cè)诘?章中提到了先進(jìn)預(yù)測(cè)技術(shù),即人口統(tǒng)計(jì)學(xué)中的人口預(yù)測(cè)技術(shù)。在第9章中,我們通過一種比較新穎的方式使用預(yù)測(cè)建模技術(shù)來創(chuàng)建更好的核心用戶指標(biāo)(例如留存指標(biāo)),以此了解Web產(chǎn)品中不同子群體的變化,從而預(yù)測(cè)未來用戶的變化。通常,對(duì)于用戶行為的分析,因果推斷優(yōu)于預(yù)測(cè)。
主題3:產(chǎn)品分析的入門指南
之所以撰寫這本書,是因?yàn)槲野l(fā)現(xiàn)大多數(shù)有關(guān)數(shù)據(jù)科學(xué)、因果推斷統(tǒng)計(jì)或人口統(tǒng)計(jì)學(xué)的書籍都非常學(xué)術(shù)化,需要很強(qiáng)的論證思維。盡管這些知識(shí)在某些情況下很重要,但是這超出了普通人在數(shù)學(xué)領(lǐng)域的認(rèn)知。因果推斷工具的使用大多數(shù)時(shí)候不需要過多的數(shù)學(xué)知識(shí),在對(duì)R語言不了解的情況下,也可以非常容易地使用。統(tǒng)計(jì)數(shù)據(jù)科學(xué)和因果推斷工具在許多業(yè)務(wù)環(huán)境中都很有用,但由于缺乏數(shù)學(xué)領(lǐng)域的復(fù)雜知識(shí),往往無法在實(shí)際中應(yīng)用。
本書的目標(biāo)就是讓所有完成高中數(shù)學(xué)和統(tǒng)計(jì)學(xué)的人都可以學(xué)習(xí)和掌握數(shù)據(jù)分析的方法。這可能有些樂觀,因?yàn)槟承┲黝}(例如統(tǒng)計(jì)匹配、增益建模和人口預(yù)測(cè))在數(shù)學(xué)上的確非常復(fù)雜。所以,我們首先要使它們?cè)诟拍钌弦子诶斫。?shù)學(xué)知識(shí)比較缺乏的讀者需要先了解一些算法的工作原理和應(yīng)用場(chǎng)景。閱讀本書后,讀者需要找到符合設(shè)計(jì)或者能應(yīng)用到自己的特定案例的模型來進(jìn)行練習(xí)。在確定正確的設(shè)置和算法后,讀者應(yīng)該能夠在 R中運(yùn)行自己的分析程序。本書的核心目標(biāo)是向讀者介紹這些算法的工作原理,在哪些情況下應(yīng)該在用戶或Web分析上下文中應(yīng)用特定的算法,以及可以應(yīng)用 R 中的哪些工具來獲得正在尋找的答案。
在本書中,我們很少使用數(shù)學(xué)符號(hào),因?yàn)檫@會(huì)讓很多讀者沒有閱讀下去的興趣。第1~6章將盡可能少地使用數(shù)學(xué)符號(hào),只從文字上描述一下方程式。第6章之后可能會(huì)依賴一些數(shù)學(xué)素材,所以隨后的章節(jié)將偶爾使用數(shù)學(xué)符號(hào)。
本書結(jié)構(gòu)
本書的目標(biāo)是更好地建模、理解和改變Web產(chǎn)品和移動(dòng)產(chǎn)品中的用戶行為。本書將按如下結(jié)構(gòu)分五大部分進(jìn)行闡述 :
第1~3章講解用來建模用戶行為的定性工具及理論;
第4~6章介紹入門級(jí)的產(chǎn)品分析中的統(tǒng)計(jì)方法;
第 7~9 章探討預(yù)測(cè)建模和預(yù)測(cè)方法;
第 10~13 章介紹真實(shí)世界中數(shù)據(jù)的因果推斷方法;
第 14~16 章用R實(shí)現(xiàn)定量方法。
第 1 章是一個(gè)介紹性章節(jié),通過晚宴的比喻向讀者闡述不利于理解用戶行為的常見陷阱,例如將社交數(shù)據(jù)視為一個(gè)“過程”而不是一個(gè)問題。社交數(shù)據(jù)往往信息非常不完整,沒有明確的結(jié)果,而且還有大量相互關(guān)聯(lián)的變量,是一個(gè)容易被擾亂的系統(tǒng),因此我們很難推斷因果關(guān)系。
第2章回顧科學(xué)方法,并介紹量化人類行為的社會(huì)學(xué)工具。在探索概念化想法的同時(shí),我們也在思考“量化”這個(gè)詞,包括它代表著什么,以及在量化過程中會(huì)丟失什么。當(dāng)今,一切量化都在朝著指標(biāo)發(fā)展。人們嘗試用一些定量指標(biāo)來替換復(fù)雜的定性指標(biāo),這是一件非常困難的事情,因?yàn)檫@些指標(biāo)很少能捕捉到原始人類在探索過程中的一些高級(jí)行為或一些出乎專家預(yù)料的復(fù)雜行為。從業(yè)者很少深入研究所使用指標(biāo)的缺點(diǎn),這導(dǎo)致了更多的誤導(dǎo)策略。
第 3 章介紹人類行為改變。用戶分析已從人口統(tǒng)計(jì)分析的形式轉(zhuǎn)變?yōu)楦鼜?fù)雜的形式,即在Web產(chǎn)品中定位用戶和改變