本書基于近些年實驗領域的研究成果和實踐經驗,對實驗的方法和應用做了很好的全景式描述,是一本兼顧系統(tǒng)性的方法論和基于實戰(zhàn)的經驗法則的書籍。根據微軟、亞馬遜、谷歌和領英每年運行的兩萬多個對照實驗,作者以示例和建議的方式向學生和業(yè)內人士分享了自己的實踐經驗,指出了需要避免的陷阱,并深入探討了一些進階專題,可以為希望改善自身及機構數據驅動決策方式的從業(yè)者提供參考。
全書分為五個部分:第I部分由四章組成。第1章概述運行線上對照實驗的好處,并介紹實驗相關術語。第2 章用一個例子剖析運行實驗的全過程。第3 章描述常見的陷阱以及如何建立實驗的可信賴度。第4 章概述如何搭建實驗平臺并規(guī);上實驗。第II部分的五章內容介紹實驗的基礎原理,比如機構指標。我們推薦所有人閱讀這一部分,尤其是領導者和高管。第III部分的兩章內容介紹線上對照實驗的補充技法,可以幫助管理層、數據科學家、工程師、分析師、產品經理等進行資源和時間的投資。第IV部分專注于實驗平臺的搭建,面向工程師群體。最后,第V部分深入討論進階的實驗分析專題,面向數據科學家。
如果我們有數據,那就看數據。
如果我們只有觀點,那就按我的觀點來。
——Jim Barksdale,網景前首席執(zhí)行官
本書旨在分享多年來Ron在亞馬遜和微軟、Diane在谷歌以及Ya在微軟和領英大規(guī)模運行線上對照實驗積累的實踐經驗。雖然我們不是代表谷歌、領英或微軟官方,而是以個人身份寫作此書,但書中凝聚了我們工作多年積累的關鍵經驗教訓和遇到的常見陷阱,并提供了軟件平臺的搭建以及公司文化的培養(yǎng)方面的指導:如何利用線上對照實驗建立數據驅動文化而不是依賴HiPPO(Highest Paid Person’s Opinion,最高薪者的意見)(R. Kohavi, HiPPO FAQ 2019)。我們相信書中的很多經驗適用于各種線上環(huán)境,不論是大大小小的公司,還是具體到公司內部的團隊或組織。書中強調了評估實驗結果可信賴度的必要性。我們相信特威曼定律蘊含的懷疑論:任何看起來有趣或與眾不同的數字通常都是錯的。我們鼓勵讀者對實驗結果,尤其是有突破性的正面結果做二次檢查,以及做驗證性測試。獲得數據很簡單,但獲得你能信任的數據很難!
本書第一部分適合所有讀者,由四章組成。第1章概述運行線上對照實驗的好處,并介紹實驗相關術語。第2章用一個例子剖析運行實驗的全過程。第3章描述常見的陷阱以及如何建立實驗的可信賴度。第4章概述如何搭建實驗平臺并規(guī)模化線上實驗。
第二部分到第五部分針對一些特定的讀者群體,當然也歡迎其他讀者按需閱讀。第二部分的五章內容介紹實驗的基礎原理,比如機構指標。我們推薦所有人閱讀這一部分,尤其是領導者和高管。第三部分的兩章內容介紹線上對照實驗的補充技法,可以幫助管理層、數據科學家、工程師、分析師、產品經理等進行資源和時間的投資。第四部分專注于實驗平臺的搭建,面向工程師群體。最后,第五部分深入討論進階的實驗分析專題,面向數據科學家。
本書的配套網站為https://experimentguide.com,它囊括了更多的材料和勘誤,并提供了開放性討論的空間。本書作者的所有收益將捐獻給慈善機構。
作者簡介:
羅恩·科哈維(Ron Kohavi)是愛彼迎的副總裁和技術院士,曾任微軟的技術研究員和公司副總裁。在加入微軟之前,他是亞馬遜的數據挖掘和個性化推薦總監(jiān)。他擁有斯坦福大學計算機科學博士學位,論文被引用超過40 000次,其中有3篇位列計算機科學領域引用最多的1 000篇論文榜。
黛安·唐(Diane Tang)是谷歌院士,大規(guī)模數據分析和基礎設施、線上對照實驗及廣告系統(tǒng)方面的專家。她擁有哈佛大學的文學學士學位和斯坦福大學的碩士及博士學位,在移動網絡、信息可視化、實驗方法、數據基礎設施、數據挖掘和大數據方面擁有專利和出版物。
許亞(Ya Xu)是領英數據科學與實驗平臺負責人,曾撰寫了多篇關于實驗的論文,并經常在頂級會議和大學演講。她曾在微軟工作,擁有斯坦福大學的統(tǒng)計學博士學位。
譯者簡介:
韓瑋:愛彼迎數據科學資深專家,專注于搜索算法和實驗領域,之前在沃爾瑪實驗室負責相關工作。她于賓夕法尼亞大學獲得應用數學博士學位和統(tǒng)計學碩士學位,本科畢業(yè)于中國科學技術大學數學系。
胡鵑娟:現任愛彼迎數據科學家,擁有四年的A/B 實驗分析經驗。此前在領英任資深數據科學家。于加州大學戴維斯分校獲得統(tǒng)計學碩士學位、香港中文大學獲得金融碩士學位,本科畢業(yè)于中國科學技術大學00 班統(tǒng)計專業(yè)。
段瑋韜:領英資深應用研究專家,現負責領英實驗科學團隊。他與許亞一起在實驗領域緊密合作長達5 年之久,書中的很多材料和結論都提煉自他和許亞的工作經驗。
胡澤浩:優(yōu)步數據科學經理,優(yōu)步人工智能和增長平臺兩個數據科學團隊的負責人,擁有五年用數據及實驗驅動產品開發(fā)的經驗。于賓夕法尼亞大學獲得經濟學博士學位,本科畢業(yè)于香港大學經濟系。
廖一正:愛彼迎資深數據科學家,負責愛彼迎中國區(qū)搜索引擎算法開發(fā),領導著實驗分析委員會。于斯坦福大學獲得土木與環(huán)境工程博士學位,研究領域為應用機器學習和統(tǒng)計。
王璐:雪花(Snowflake)計算數據科學家,擁有將近七年的實驗設計與分析、統(tǒng)計建模以及產品分析經驗。曾任愛彼迎數據科學家以及吉利德科學生物統(tǒng)計師。于加州大學洛杉磯分校獲得生物統(tǒng)計博士學位,本科畢業(yè)于浙江大學生物信息系。
趙振宇:騰訊數據科學總監(jiān)。此前先后在雅虎和優(yōu)步負責實驗系統(tǒng)、因果推斷、機器學習應用研究和平臺建設,以及開源項目研發(fā)工作。于美國西北大學獲得統(tǒng)計學博士學位,本科畢業(yè)于中國科學技術大學。
鐘婧:蘋果公司Siri 部門資深數據科學家,此前先后在微軟必應部門及臉書公司從事機器學習建模和A/B 實驗、用戶和產品數據分析、產品戰(zhàn)略分析等方向的研究工作。于密歇根大學獲得博士學位,本科畢業(yè)于清華大學電子工程系。
本書贊譽
譯者序
前言——如何閱讀本書
致謝
第一部分 線上對照實驗概覽
第1章 概述和寫作動機003
1.1 線上對照實驗的術語005
1.2 為什么進行實驗?相關性、因果關系和可信賴度008
1.3 有效運行對照實驗的必要元素010
1.4 宗旨011
1.5 隨時間推移的改進013
1.6 有趣的線上對照實驗實例015
1.7 戰(zhàn)略、戰(zhàn)術及它們和實驗的關系020
1.8 補充閱讀 023
第2章 運行和分析實驗——一個全程剖析的案例025
2.1 設立實驗025
2.2 假設檢驗:確立統(tǒng)計顯著性028
2.3 設計實驗030
2.4 運行實驗并獲得數據032
2.5 分析結果033
2.6 從結果到決策034
第3章 特威曼定律與實驗的可信賴度037
3.1 曲解統(tǒng)計結果038
3.2 置信區(qū)間041
3.3 對內部有效性的威脅041
3.4 對外部有效性的威脅046
3.5 細分群的差異049
3.6 辛普森悖論 052
3.7 鼓勵健康的懷疑態(tài)度054
第4章 實驗平臺和文化055
4.1 實驗成熟度模型055
4.2 基礎設施和工具062
第二部分 基礎原理
第5章 速度很重要:一個全程案例剖析075
5.1 關鍵假設:局部線性近似077
5.2 如何測量網站的性能078
5.3 減速實驗的設計080
5.4 對不同頁面元素的影響是不同的081
5.5 極端結果083
第6章 機構指標085
6.1 指標的分類086
6.2 指標的制定:原則和技術089
6.3 指標的評估091
6.4 指標的演變092
6.5 更多的資源093
6.6 補充材料:護欄指標093
6.7 補充材料:可操縱性095
第7章 實驗指標和綜合評估標準097
7.1 從業(yè)務指標到適用于實驗的指標098
7.2 將關鍵指標組合成一個OEC099
7.3 案例:亞馬遜電子郵件的OEC101
7.4 案例:必應搜索引擎的OEC103
7.5 Goodhart法則、Campbell法則以及Lucas批判104
第8章 機構的經驗傳承與統(tǒng)合分析107
8.1 什么是機構的經驗傳承107
8.2 為什么機構的經驗傳承有用108
第9章 對照實驗中的倫理111
9.1 背景111
9.2 數據收集116
9.3 文化與流程117
9.4 補充材料:用戶標識符117
第三部分 補充及替代技法
第10章 補充技法121
10.1 補充技法的空間121
10.2 基于日志的分析122
10.3 人工評估124
10.4 用戶體驗調研125
10.5 焦點小組125
10.6 問卷調查126
10.7 外部數據127
10.8 總結129
第11章 觀察性因果研究131
11.1 對照實驗不可行的情況131
11.2 觀察性因果研究的設計133
11.3 陷阱138
11.4 補充材料:被駁斥的觀察性因果研究141
第四部分 實驗平臺搭建
第12章 客戶端實驗145
12.1 服務器端和客戶端的差異145
12.2 對實驗的潛在影響148
12.3 結論152
第13章 工具化日志記錄153
13.1 客戶端與服務器端的工具化日志記錄153
13.2 處理多源的日志155
13.3 工具化日志記錄的文化156
第14章 選擇隨機化單元157
14.1 隨機化單元和分析單元159
14.2 用戶級別的隨機化160
第15章 實驗放量:權衡速度、質量與風險163
15.1 什么是放量163
15.2 SQR放量框架164
15.3 四個放量階段165
15.4 最終放量之后168
第16章 規(guī);瘜嶒灧治169
16.1 數據處理169
16.2 數據計算170
16.3 結果匯總和可視化172
第五部分 實驗分析
第17章 線上對照實驗中的統(tǒng)計學知識177
17.1 雙樣本t檢驗177
17.2 p值和置信區(qū)間178
17.3 正態(tài)性假設179
17.4 第一/二型錯誤和統(tǒng)計功效181
17.5 偏差183
17.6 多重檢驗183
17.7 費舍爾統(tǒng)合分析184
第18章 方差估計和提高靈敏度:陷阱及解決方法185
18.1 常見陷阱186
18.2 提高靈敏度189
18.3 其他統(tǒng)計量的方差190
第19章 A/A測試193
19.1 為什么運行A/A測試193
19.2 如何運行A/A測試198
19.3 A/A測試失敗時199
第20章 以觸發(fā)來提高實驗靈敏度201
20.1 觸發(fā)示例201
20.2 數值示例204
20.3 最佳的和保守的觸發(fā)205
20.4 總體實驗效應206
20.5 可信賴的觸發(fā)207
20.6 常見的陷阱207
20.7 開放性問題209
第21章 樣本比率不匹配與其他可信度相關的護欄指標211
21.1 樣本比率不匹配212
21.2 調試SRM214
第22章 實驗變體之間的泄露和干擾219
22.1 示例220