本書介紹了人們關(guān)于因果分析和因果推斷認(rèn)知的歷史脈絡(luò)與現(xiàn)代發(fā)展。主要內(nèi)容分為4章,第1章介紹了因果概念的歷史發(fā)展,重點(diǎn)闡述中國(guó)古代賢達(dá)對(duì)于這一問題的精辟理解,以及古希臘科學(xué)家對(duì)于因果關(guān)系認(rèn)知所做的基礎(chǔ)性貢獻(xiàn)。文藝復(fù)興以后,諸多科學(xué)家在這個(gè)問題上的逐步深入研究,給予了因果關(guān)系以現(xiàn)代科學(xué)的描述方式。第2章介紹當(dāng)前因果分析與推斷的一些理論和方法,主要介紹了2011年圖靈獎(jiǎng)得主朱迪亞·珀?duì)栍嘘P(guān)求解因果關(guān)系的理論框架和計(jì)算方法,這些方法已經(jīng)成為當(dāng)前因果科學(xué)的主流模型之一。第3章專門討論了因果分析的一些重要而有趣的問題,包括如何識(shí)別抽煙對(duì)于肺癌的影響,以及其中延續(xù)幾十年的爭(zhēng)論,介紹了在具體問題中如何確定實(shí)際原因,這些實(shí)際原因經(jīng)常具有獨(dú)特性而被“一般的”因果分析方法所忽略,但在醫(yī)療、司法和決策中至關(guān)重要。最后在第4章,介紹了當(dāng)前機(jī)器學(xué)習(xí)和人工智能的一個(gè)新發(fā)展趨勢(shì),就是如何將因果分析與機(jī)器學(xué)習(xí)進(jìn)行“嫁接”,從而產(chǎn)生性能更加優(yōu)越、更加近似于人類思維的人工智能。
本書是一本普及性讀物,適合本科生及研究生,也適合從事數(shù)據(jù)科學(xué)和人工智能工作的專業(yè)人員閱讀,同時(shí)對(duì)于希望了解因果科學(xué)的愛好者也是一本很好的入門書籍。
前言
人類對(duì)于因果和因果關(guān)系的探索與追求,自人類文明起源開始,一直延綿至今。從上古時(shí)代人們對(duì)于動(dòng)物活動(dòng)規(guī)律的認(rèn)知,到現(xiàn)代人們對(duì)于各種現(xiàn)象之間本質(zhì)聯(lián)系的挖掘,因果關(guān)系貫穿了其中的每一個(gè)環(huán)節(jié)。當(dāng)前,幾乎所有學(xué)科的研究?jī)?nèi)容都離不開對(duì)因果關(guān)系的分析,因果關(guān)系成為當(dāng)代科學(xué)的基石之一。
但令人深思的是,這樣一個(gè)重要的基礎(chǔ)概念,長(zhǎng)時(shí)間以來(lái)卻一直處于朦朧和神秘的狀態(tài)。幾千年來(lái),人們一直通過經(jīng)驗(yàn)和直覺來(lái)理解因果關(guān)系,從而形成了所謂的常識(shí)因果知識(shí),直到20世紀(jì)初葉,仍然能夠看到有關(guān)因果關(guān)系的一些模糊的,甚至是相互矛盾的敘述。概念的含糊性和歧義性,并不影響人們?cè)诟鞣N場(chǎng)合毫無(wú)顧忌地談?wù)撘蚬P(guān)系,但同時(shí)也難免會(huì)讓人們陷于各種各樣的爭(zhēng)論。這種現(xiàn)象在現(xiàn)代科學(xué)中即使不是絕無(wú)僅有的,也是極為個(gè)別的。
這種混亂的場(chǎng)面,到了100多年前才開始得到扭轉(zhuǎn),在耶日·內(nèi)曼和羅納德·費(fèi)希爾等人的共同推動(dòng)下,對(duì)于因果關(guān)系的理解開始走向了科學(xué)的道路,因果關(guān)系這個(gè)充滿謎團(tuán)的神奇之物變得逐漸清晰起來(lái)。用數(shù)學(xué)和統(tǒng)計(jì)學(xué)的語(yǔ)言描述因果和因果關(guān)系,終于使人們可以在一個(gè)共同認(rèn)可的基礎(chǔ)上討論因果關(guān)系。正如馬克思所說:“一種科學(xué)只有在成功地運(yùn)用數(shù)學(xué)時(shí),才算達(dá)到了真正完善的地步。”對(duì)于因果關(guān)系的科學(xué)表述使因果關(guān)系從一個(gè)“自然之物”一躍成為“科學(xué)之物”,并且在眾多學(xué)科領(lǐng)域的研究中獲得巨大成功,特別是醫(yī)學(xué)、經(jīng)濟(jì)學(xué)、心理學(xué)、生態(tài)學(xué)、管理學(xué)等這些不便做隨機(jī)對(duì)照試驗(yàn)的學(xué)科。到目前為止,已經(jīng)在絕大多數(shù)學(xué)科中發(fā)現(xiàn)了因果關(guān)系的成功應(yīng)用,并且借助計(jì)算機(jī)科學(xué)和人工智能的推動(dòng),因果關(guān)系正在煥發(fā)新的青春和力量。盡管還有一些質(zhì)疑的聲音,但是總的趨勢(shì)已經(jīng)向著光明的未來(lái)前進(jìn)。
這本《因果漫步》將帶我們開啟這段因果認(rèn)知啟蒙和發(fā)展的漫步之旅,去感知人們對(duì)于因果關(guān)系的理解在歷史長(zhǎng)河中如何一步步地發(fā)生變化,以及因果關(guān)系是如何成為一個(gè)科學(xué)的研究對(duì)象的。在這個(gè)過程中,許多科學(xué)家做出了重要貢獻(xiàn),使得因果關(guān)系從一個(gè)有些玄奧的哲學(xué)概念變?yōu)榭梢苑治、?jì)算、評(píng)價(jià)和比對(duì)的學(xué)術(shù)概念,同時(shí)借助各種精巧的算法,還使得我們可以在復(fù)雜的環(huán)境變量中知道應(yīng)該做什么和怎樣去做,并由此得到關(guān)于因果關(guān)系的具體結(jié)論?偠灾茖W(xué)使得人們?cè)陉P(guān)于因果關(guān)系的認(rèn)知和應(yīng)用上產(chǎn)生了巨大的飛躍。
有兩個(gè)貫穿全書的重要概念:因果效應(yīng)和因果關(guān)系。因果效應(yīng)指的是原因變量對(duì)于結(jié)果變量的影響程度,而因果關(guān)系指的是這個(gè)程度超越了設(shè)定的閾值,具有了顯著性。兩個(gè)概念之間相互聯(lián)系而又有所區(qū)別。因果效應(yīng)是客觀存在的,具有數(shù)量上的刻畫,而因果關(guān)系則是根據(jù)問題的需要和對(duì)問題的理解而主觀設(shè)定的。因果效應(yīng)使得因果關(guān)系具備了量化性質(zhì),而可量化的因果關(guān)系是現(xiàn)代因果關(guān)系研究的重要標(biāo)志。當(dāng)前普遍用概率統(tǒng)計(jì)的語(yǔ)言來(lái)描述因果效應(yīng),因?yàn)橐粋(gè)原因有時(shí)導(dǎo)致結(jié)果出現(xiàn),有時(shí)可能不導(dǎo)致,即因果的發(fā)生是一個(gè)概率現(xiàn)象。常識(shí)因果論一般認(rèn)為“有因必有果”,即原因必然導(dǎo)致結(jié)果,但是現(xiàn)實(shí)世界是復(fù)雜的,在人們可以觀察的世界中,因果并不是必然發(fā)生的,而是“固然”發(fā)生的(金岳霖語(yǔ)),因此概率化的因果關(guān)系描述更加符合客觀實(shí)際,也比常識(shí)因果更為科學(xué)。只有使用了科學(xué)的觀察手段和描述方法,因果理論才能真正成為人們認(rèn)知世界的工具,進(jìn)而成為不同學(xué)科增添新方法的源頭和做出新發(fā)現(xiàn)的利器。
現(xiàn)實(shí)世界是復(fù)雜的,需要面對(duì)的因果分析問題通常是一個(gè)龐大的系統(tǒng),從中既簡(jiǎn)明又準(zhǔn)確地給出有關(guān)因果關(guān)系的結(jié)論是一個(gè)十分有意義卻困難的任務(wù)。例如一場(chǎng)山火,導(dǎo)致其發(fā)生的原因有很多,其中主要有兩個(gè):一個(gè)是火種的存在,一個(gè)是氧氣的存在。但是氧氣這個(gè)原因顯然不是因果分析所要針對(duì)的目標(biāo),更需要針對(duì)的是那些不常發(fā)生的事情,也就是火種。毫無(wú)疑問,因果分析應(yīng)該符合人們潛在的期望,但是這種期望經(jīng)常處于一種朦朧和不清晰的狀態(tài),有時(shí)候人們希望因果分析告訴人們自己都說不清楚的結(jié)果,這就導(dǎo)致了因果分析天生就具有某種非計(jì)算性質(zhì)和不確定性。全面的不分巨細(xì)的因果分析似乎并不是人們所追求的,試想一下,導(dǎo)致一場(chǎng)山火的原因多如牛毛,例如溫度、水汽、植被分布、風(fēng)向、風(fēng)力等,如果機(jī)器真的開列了1000條理由(這是經(jīng)常有的),這可不是什么好事,實(shí)際上只要知道一條,即火種的來(lái)源。那么我們追求的目標(biāo)究竟是什么,如何向計(jì)算機(jī)描述我們的期冀(這經(jīng)常因?yàn)槟繕?biāo)的不同而不同),成為因果分析中一個(gè)極其特別的問題,這也使得因果分析始終無(wú)法脫去哲學(xué)的外衣而成為一個(gè)純粹的學(xué)術(shù)問題。
2021年的諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)與2022年的諾貝爾物理學(xué)獎(jiǎng)都與因果關(guān)系有關(guān),2021年的經(jīng)濟(jì)學(xué)獎(jiǎng)授予三位在美國(guó)工作的經(jīng)濟(jì)學(xué)家,分別是加州大學(xué)伯克利分校的大衛(wèi)·卡德、麻省理工學(xué)院的喬舒亞·安格里斯特,以及斯坦福大學(xué)的吉多·因本斯,在頒獎(jiǎng)詞中,對(duì)卡德教授的表彰是“對(duì)勞動(dòng)經(jīng)濟(jì)學(xué)的經(jīng)驗(yàn)性貢獻(xiàn)”,而對(duì)安格里斯特教授和因本斯教授的表彰則是“對(duì)因果關(guān)系分析的方法學(xué)貢獻(xiàn)”?ǖ陆淌谡菓(yīng)用了因果分析方法解決了勞動(dòng)經(jīng)濟(jì)學(xué)的諸多問題,這是因果分析在經(jīng)濟(jì)學(xué)中成功應(yīng)用的卓越案例。2022年諾貝爾物理學(xué)獎(jiǎng)授予法國(guó)科學(xué)家阿蘭·阿斯佩、美國(guó)科學(xué)家約翰·克勞澤和奧地利科學(xué)家安東·塞林格,以表彰他們“用糾纏光子進(jìn)行的實(shí)驗(yàn),證偽了貝爾不等式,并開創(chuàng)了量子信息科學(xué)”的貢獻(xiàn)。他們用實(shí)驗(yàn)說明,在量子世界里,“決定論”并不成立,因此以“決定論”為基礎(chǔ)的因果論也不成立,但是這并不意味著在宏觀世界范圍里的因果論的終結(jié),因?yàn)槲⒂^世界和宏觀世界之間橫亙著一道墻,在墻的兩邊有著完全不同的風(fēng)景。盡管從理論上講,可以通過描述每一個(gè)量子的行為來(lái)描述宏觀物體的行為,但是實(shí)際上,這既不可能也無(wú)必要。人類幾百年來(lái)建立的描述宏觀世界的原理依然有效并且簡(jiǎn)明,因果關(guān)系依然是描述這個(gè)日常世界的基本法則。當(dāng)然,從量子世界到宏觀世界,隨機(jī)論如何過渡到因果論,即因果涌現(xiàn)的問題,是當(dāng)前人們關(guān)心的一個(gè)熱點(diǎn)問題。
本書總共分為4章,第1章講述了人類對(duì)于因果關(guān)系認(rèn)知的發(fā)展歷史脈絡(luò),特別是中國(guó)的古代先賢們對(duì)于因果關(guān)系的樸素理解和精辟表述,比如戰(zhàn)國(guó)時(shí)期的哲學(xué)家墨子提出的“二故說”,描述了原因的充分性和必要性,早于亞里士多德的“四因說”。蘇格蘭哲學(xué)家休謨于18世紀(jì)提出類似的對(duì)于因果關(guān)系的表述,已經(jīng)相差2000多年了。文藝復(fù)興以后,諸多科學(xué)家在這個(gè)問題上的研究逐步深入,從古代的直覺主義過渡到現(xiàn)代的科學(xué)認(rèn)知。人類天生就具備因果抽象能力,但是要將因果形成一門科學(xué)卻并不容易,其中一些過程耐人尋味。第2章主要介紹了當(dāng)代因果關(guān)系的基本理論和分析方法,這些介紹主要基于2011年圖靈獎(jiǎng)得主朱迪亞·珀?duì)柼岢龅年P(guān)于因果分析的框架,同時(shí)也介紹了其他的一些理論與流派。珀?duì)査_創(chuàng)的因果分析框架具有算法性特點(diǎn),適合在計(jì)算機(jī)上予以實(shí)現(xiàn),當(dāng)然,與其他理論相比也各有優(yōu)缺點(diǎn),需要取長(zhǎng)補(bǔ)短,綜合應(yīng)用。第3章介紹了因果論中一些頗為有趣的專題,通過吸煙是否導(dǎo)致肺癌的爭(zhēng)論案例,討論了在復(fù)雜背景下如何通過有效地處理各種因素而找出真正起關(guān)鍵作用的原因。介紹了處理因果關(guān)系的幾種觀點(diǎn)以及統(tǒng)計(jì)因果分析的三大方法,即斷點(diǎn)回歸、雙重差分和傾向得分匹配。討論了如何根據(jù)問題性質(zhì)去確定和獲取所需要的實(shí)際原因,這些實(shí)際原因經(jīng)常因具有獨(dú)特性而被“一般的”因果分析方法所忽略,但在醫(yī)療、司法和決策中至關(guān)重要。第3章還介紹了在不完美實(shí)驗(yàn)中如何正確評(píng)估因果關(guān)系,這在觀察和實(shí)驗(yàn)研究中是經(jīng)常遇到的。第4章專門討論了因果分析與機(jī)器學(xué)習(xí)的關(guān)系,這在人工智能中是一個(gè)躲避不開且亟須解決的關(guān)鍵問題,通過將因果分析引入機(jī)器學(xué)習(xí),可以創(chuàng)造出更加“聰明”的智能體,并使其行為更加類似人類智能。因果分析與機(jī)器學(xué)習(xí)的“聯(lián)姻”,正在催生新一代的智能技術(shù),并引發(fā)第二次因果革命。
寫一本具有普及性質(zhì)的“漫步型”書籍,對(duì)于我們來(lái)講是一種全新的經(jīng)歷,其中有許多挫折和起伏,對(duì)于因果關(guān)系的學(xué)術(shù)理解并不足以勝任這樣的一本書的編寫,熟悉內(nèi)容是一回事,能夠給讀者通俗地講出來(lái)并講好是另一回事。我們盡力處理好科學(xué)性與通俗性的平衡,但難免存在不當(dāng)或遺漏之處,懇請(qǐng)讀者批評(píng)指正。
十分感謝北京大學(xué)李曉明教授在本書寫作過程中自始至終給予的鼓勵(lì)和支持,感謝北京大學(xué)耿直教授、浙江大學(xué)吳飛教授、廣東工業(yè)大學(xué)蔡瑞初教授對(duì)本書提出的許多有益建議,使我們進(jìn)一步明確了這本書的基調(diào)和內(nèi)容。感謝梁知音老師細(xì)心地為本書創(chuàng)作了插圖,使得這本書增色不少。正是在他們的支持下,本書才得以出版,希望讀者能夠通過閱讀本書受益,增強(qiáng)對(duì)于因果關(guān)系研究的興趣。
作者
2023年3月
李廉,合肥工業(yè)大學(xué)教授。曾擔(dān)任教育部高等學(xué)校大學(xué)計(jì)算機(jī)課程教學(xué)指導(dǎo)委員會(huì)主任,中國(guó)計(jì)算機(jī)學(xué)會(huì)理論計(jì)算機(jī)科學(xué)專業(yè)委員會(huì)主任。主要從事理論計(jì)算機(jī)科學(xué)、大數(shù)據(jù)應(yīng)用、人工智能等領(lǐng)域的研究。先后承擔(dān)或參與國(guó)家自然科學(xué)基金重大研究計(jì)劃重點(diǎn)項(xiàng)目,國(guó)家科技攻關(guān)計(jì)劃項(xiàng)目等。獲安徽省教學(xué)成果一等獎(jiǎng)兩項(xiàng),國(guó)家教學(xué)成果二等獎(jiǎng)一項(xiàng),2020年獲中國(guó)計(jì)算機(jī)學(xué)會(huì)杰出教育獎(jiǎng)。
第1章如何認(rèn)識(shí)世界
1.1因果概念的產(chǎn)生及意義
1.1.1因果關(guān)系與認(rèn)知
1.1.2常識(shí)因果與科學(xué)因果
1.1.3因果關(guān)系的分析與推斷
1.1.4因果關(guān)系的黃金法則
1.2從邏輯到因果
1.2.1因果的邏輯基礎(chǔ)
1.2.2亞里士多德的“四因說”
1.3中國(guó)古代的因果觀念
1.3.1墨學(xué)的因果必然
1.3.2道學(xué)的因果分層
1.3.3佛學(xué)的因果緣起
1.4對(duì)于因果科學(xué)的追求
1.4.1因果關(guān)系的重生
1.4.2因果關(guān)系數(shù)學(xué)模型的引入
1.4.3因果關(guān)系的現(xiàn)代詮釋
1.4.4珀?duì)柕囊蚬治隹蚣?
1.5本章結(jié)束語(yǔ)
第2章因果關(guān)系——決策與反思
2.1什么是混雜
2.2如何表示因果關(guān)系
2.2.1因果結(jié)構(gòu)圖
2.2.2因果結(jié)構(gòu)圖中的關(guān)系傳遞
2.2.3因果關(guān)系量化
2.2.4因果關(guān)系與概率
2.2.5因果結(jié)構(gòu)圖與貝葉斯網(wǎng)絡(luò)
2.3如何從觀察數(shù)據(jù)中識(shí)別因果結(jié)構(gòu)
2.3.1為什么可以識(shí)別因果結(jié)構(gòu)
2.3.2識(shí)別因果結(jié)構(gòu)的基本假設(shè)
2.3.3識(shí)別因果結(jié)構(gòu)的方法:以IC算法為例
2.3.4識(shí)別因果結(jié)構(gòu)的方法:評(píng)分優(yōu)化
2.3.5統(tǒng)計(jì)時(shí)間與物理時(shí)間
2.4如何估計(jì)因果效應(yīng)
2.4.1什么是干預(yù)
2.4.2如何在因果結(jié)構(gòu)圖中表示干預(yù)
2.4.3為什么可以利用觀察數(shù)據(jù)估計(jì)干預(yù)的效果
2.4.4觀察數(shù)據(jù)校正與隨機(jī)對(duì)照試驗(yàn)
2.4.5校正變量的篩選——后門準(zhǔn)則
2.4.6結(jié)構(gòu)方程與因果效應(yīng)
2.4.7線性系統(tǒng)中的因果效應(yīng)估計(jì)
2.4.8工具變量與工具變量悖論
2.5如何實(shí)現(xiàn)個(gè)體反思
2.5.1什么是反事實(shí)
2.5.2反事實(shí)與干預(yù)的關(guān)系
2.5.3反事實(shí)與最鄰近世界
2.5.4反事實(shí)推斷的基本過程
2.5.5反事實(shí)推斷與校正公式
2.5.6線性系統(tǒng)中的反事實(shí)
2.5.7直接原因和間接原因
2.6因果分析的待解問題
2.6.1亞群反轉(zhuǎn)
2.6.2抽樣偏差與變量選擇
2.6.3假設(shè)檢驗(yàn)
2.6.4因果區(qū)域
2.7本章結(jié)束語(yǔ)
第3章現(xiàn)實(shí)世界與實(shí)際原因
3.1究竟哪個(gè)是原因
3.1.1從吸煙致癌談起
3.1.2因果解釋
3.1.3特異因果和一般因果
3.1.4必要原因與充分原因
3.2因果關(guān)系效應(yīng)估計(jì)
3.2.1諾貝爾獎(jiǎng)的故事——因果關(guān)系可識(shí)別性
3.2.2斷點(diǎn)回歸
3.2.3雙重差分
3.2.4傾向得分匹配
3.3不完美實(shí)驗(yàn)中的因果估計(jì)
3.3.1不完美實(shí)驗(yàn)問題
3.3.2不完美實(shí)驗(yàn)因果圖
3.3.3意向性因果分析
3.3.4不完美實(shí)驗(yàn)的邊界估計(jì)
3.4關(guān)于實(shí)際原因的困惑
3.4.1什么是實(shí)際原因
3.4.2如何確定實(shí)際原因
3.4.3因果搶占
3.4.4過度確定
3.5本章結(jié)束語(yǔ)
第4章機(jī)器學(xué)習(xí)與因果分析
4.1機(jī)器學(xué)習(xí)的神話
4.1.1什么是機(jī)器學(xué)習(xí)
4.1.2機(jī)器學(xué)習(xí)的起源和歷史
4.1.3機(jī)器學(xué)習(xí)的趨勢(shì)和未來(lái)
4.2大數(shù)據(jù)時(shí)代的信任危機(jī)
4.2.1到底需要多大量的數(shù)據(jù)呢
4.2.2為什么數(shù)據(jù)質(zhì)量很重要
4.2.3統(tǒng)計(jì)數(shù)據(jù)也會(huì)說謊嗎
4.2.4機(jī)器學(xué)習(xí)模型穩(wěn)健嗎
4.2.5結(jié)果可解釋嗎
4.3從因果關(guān)系中尋求突破
4.3.1因果機(jī)器學(xué)習(xí)
4.3.2因果發(fā)現(xiàn)
4.3.3因果模型對(duì)機(jī)器學(xué)習(xí)的意義
4.4下一代人工智能
4.4.1因果建模的層次
4.4.2因果之梯——構(gòu)筑穩(wěn)固的基石
4.5本章結(jié)束語(yǔ)
參考文獻(xiàn)