大家好,欢迎来到IT知识分享网。
探求事物的原因,是人类永恒的精神活动之一。从古希腊的哲学到中国先秦的诗歌,都充满了对原因的追问和对因果关系的思考。比如,亚里士多德就在《物理学》(physics)和《形而上学》(metaphysics)两书中反复强调,我们只有知道了事物的原因,才能算真正理解这个事物。又如,屈原在《天问》开篇,就追问日月星辰运行的原因。
长期以来,人们一方面好奇地追问原因和结果的关系,一方面又苦于这些概念的模糊性。于是,这些话题在很长一段时间都仅仅局限在哲学和文学的范围内。精确地描述因果关系,尤其是用数学的语言来描述因果关系,则是非常近代的事情了。这一项思想飞跃,得益于现代统计学的发展。统计学家称之为“因果推断”(causal inference)。
虽然因果推断在现代统计学的萌芽阶段就已经产生,但是它的发展并非一帆风顺:它长期被主流忽视、怀疑甚至攻击。直至最近四十年,尤其是最近十年,它才得到了广泛的认可和大力的研究,成为当今主流的研究方向之一。在最近的一篇文章中,Andrew Gelman和Aki Vehtari评选了过去五十年中,统计学最重要的八个想法,排名第一的就是因果推断1。当今世界,很多年轻的学者加入了因果推断的研究,他们来自统计学、经济学、社会学、政治科学、教育学、流行病学、计算机科学、哲学等等领域。毫不夸张地说,统计因果推断的研究迎来了它发展的黄金时代。
本文将回顾统计因果推断的历史背景,评述中国因果推断研究的现状,并且大胆推测它未来的发展前景。
哲学基础:因果推断何以成为可能?
亚里士多德 《物理学》的一个英译本。这本书的Book II 3的开篇写道:“Knowledge is the object of our inquiry, and men do not think they know a thing till they have grasped the ‘why’ of it (which is to grasp its primary cause)”,翻译成中文就是,我们探索的目标是知识,只有掌握了“为什么”,才算真正理解一个事物,即,掌握该事物的根本原因。
休谟的名著《人性论》对哲学史产生了深远的影响,他指出了归纳推理的缺陷,认为我们对因果关系的信念仅仅来自于习惯(habit)和传统(custom)
统计学中“哥白尼式的革命”:内曼的“潜在结果”模型
块田作为实验的对象,实验者想检测两种肥料对于产量的影响。用
表示第
块田,
和
表示如果用肥料1和肥料0分别对应的第
块田的产量,那么
就是肥料
相对于肥料
对第
块田产量的因果作用。实验者随机地分配肥料
或者肥料
到第
块田,所以最终我们要么观测到
,要么观测到
,不可能同时观测两者。
和
,也就无法直接观测到
。观测单个的
太困难,退而求其次,我们可以考虑研究它的平均数:
通常被称为平均因果作用(average causal effect)。这可能是因果作用最简单的定义了。到此为止,内曼引入了一些数学记号来定义“因果作用”。也许读者会觉得这平平无奇,无非就是
和到
,但是,这些记号将开启一扇窗,迎接新思想的曙光。
年轻时的内曼。内曼是加州大学伯克利 分校统计系的创始人(照片由该系提供)
和
,以及平均因果作用
,在某种意义上,都是假想的数字。仅有这些定义,还不能说明这个模型的现实意义。问题的关键是:我们能否根据观测到的数据推断
?内曼给出了肯定的回答。
块田接受肥料
或者肥料
是完全随机的。用
表示第
块田接受肥料
,用
表示第
块田接受肥料
。随机化实验固定接受肥料
和肥料
的田的总数,分别是
和
,对应的
这个向量是
个
和
个
的随机置换(random permutation)。如果第
块田接受了肥料
,那么我们观测到的产量就是
时,
;当
时,
。但是,我在和朱迪亚•珀尔(JudeaPearl)交流时,他认为这是因果推断最重要的恒等式,因为它联系了左边我们能够观测到的结果和右边的潜在结果。
。一个显而易见的估计量是
和肥料
下,平均结果的差值。内曼证明了
是平均因果作用
的无偏估计(即
的期望是
),计算了这个估计量的方差,讨论了如何估计这个方差,还提出了一个基于
的中心极限定理的置信区间(即这个区间以指定的概率盖住真值τ)。最后一步的中心极限定理在内曼的原文仅仅是一个直觉的证明,一直到了Paul Erdős,Alfréd Rényi 和 Jaroslav Hájek工作的出现,这类中心极限定理的证明才被严格化4。
统计学的拓荒者:
鲁宾关于观察性研究中的因果推断的研究
鲁宾教授正在作报告(截屏自 https://www.youtube.com/watch?v=N4tQC3elGK4)
表示个体
,它的观测结果
有两个潜在结果
和
,分别对应两个处理水平,一般来说
被称为“处理”(treatment),而
被称为“对照”(control)。每个个体
有一个二值的处理水平
和一些处理前的协变量
。一个具体的例子是:
-
:个体
吸烟与否的指示变量;
-
:个体
是否得肺癌的指示变量;
-
:个体
的年龄、性别、教育、收入、家庭病史等等,统计学中称它们为协变量(covariates)。
的因果推断的充分条件:
,潜在结果
和处理变量
条件独立。
是离散的随机变量;一般化的公式可以同理得到。上面的推导仅仅用到了最基本的概率法则:第一步是全概率公式;第二步由可忽略性要求的条件独立性得到;第三步根据
将
替换成
或者
。这个公式的意义在于,最左边的平均因果作用
的定义依赖于不可以完全被观测的潜在结果,最右边的量仅仅依赖于可以观测的变量
的联合分布。用一个技术性的术语来描述上面的公式,就是,基于观测数据,平均因果作用是可识别的(identifiable)。直观上,我们可以用观测数据构造平均因果作用的估计量。比如,我们可以拟合
关于
的统计模型,则可以进一步根据上面的公式估计 τ.
是处理的指示变量给定协变量的条件概率。这个公式也有比较直观的解释:处理组和对照组的个体并非完全随机选择的,我们需要根据他们入组的概率进行调整。
在观察性研究的因果推断中,发挥着至关重要的作用,他们把这个条件概率称为“倾向得分”(propensity score)。这个公式有类似的、不平凡的意义:右边的量仅仅依赖于可以观测的变量
的联合分布。一旦拟合了
关于
的统计模型,我们可以得到
的估计,则可以进一步估计
。这个估计方法涉及到了用条件概率的逆进行加权,所以在文献中它也被称为“逆概加权”(inverse probability weighting;IPW)。
和结果
之间的先后顺序是固定的,一前一后。但是,很多实际问题可能存在
和
同时产生,或者两者之间有动态关系的情况。鲁宾的这个简单模型,无法讨论这个问题。在计量经济学中,这被称为“联立方程模型”(simultaneous equation model)。
费希尔否定吸烟导致肺癌
人工智能的“因果革命”:珀尔对图模型的因果解释
形成一个DAG,每个节点对应着一个随机变量。我们用
表示和节点
紧邻且处于箭头上游的变量集合(parent node),这个集合可能为空集。DAG中变量的联合分布可以分解成
取
,并且删除所有指向
的边(由于我们强制
取
,那么
指向
的边不再起作用)。等式的右边展示了这个新DAG的联合分布和原始DAG联合分布的关系。从左边的联合分布,我们可以推出边缘分布,比如
对
的平均因果作用。这就是在因果图下,用do算子定义的
对
的平均因果作用。一个至关重要的点是,
。类似可得
。进一步可以计算
对
的平均因果作用。但是这个例子的趣味性还不够,因为上面的计算公式要求我们观测到所有变量的联合分布。
对
的因果作用,我们无需观测所有的变量,仅仅观测
即可。直观上,
阻断了从
到
的所有“后门路径”:
的、看似后门路径但是有“→•←”这种结构的路径,并不算成真正的后门路径。珀尔证明,仅仅用
的联合分布,我们就可以表示
的公式,从而有如下的平均因果作用的公式:
,
,
换成
,
,
,那么上面这个公式和在潜在结果下假定可忽略性推导出来的平均因果作用的公式一模一样。
的联合分布,就可以识别
到
的因果作用。直观上,
阻断了所有从
到
的“前门路径”;另外,
到
没有后门路径,
到
的后门路径都被
阻断了。在这些约束下,珀尔证明了下面的前门准则公式:
的因果作用是可以识别的,因为他们之间没有后门路径;
到
的因果作用是可以识别的,因为他们的后门路径被
阻断了;
到
的因果作用仅仅通过
产生,因此,
到
的因果作用可以理解成
到
的因果作用和
到
的因果作用的“乘积”。
珀尔和他的畅销书《为什么》,图片来自:https://momentmag.com/author-interview-judea- pearl/
中国因果推断的研究
屈原的《天问》反映了中国古人对自然和历史的好奇心(图片来网络)
学术界的“四世同堂”:耿直(右二)、学生郭建华(左二,东北师范大学副校长), 学生的学生朱文圣(右一,东北师范大学数学与统计学院副院长),学生的学生的学生王鹏飞(左一,东北财经大学讲师)
注释
1A. Gelman and A. Vehtari, What are the most important statistical ideas of the past 50 years? 见https://arxiv.org/abs/2012.00174。第一作者曾获得年轻统计学家的最高奖 COPSS 奖章。
2“[T]he sole end of science is the honor of the human mind.” —— Carl Jacobi(卡尔• 雅可比)
3 内曼的论文是用波兰语写成的。1990年,D. M. Dabrowska 和 T. P. Speed 将论文翻译成英文,题目是On the Applications of the Theory of Probability to Agricultural Experiments,发表于Statistical Science。潜在结果的基本想法也许在历史中早就产生了,但是将它数学化、且正式地用于统计学,内曼的文章是首次。内曼是现代统计学的奠基人之一,他对假设检验、置信区间、抽样调查和实验设计等领域的研究,成为现代统计学的标准范式。我国概率论和数理统计学的先驱许宝騄教授是内曼在英国指导的学生之一。
4这方面的文献综述是:Li, X. and Ding, P. (2017). General forms of finite population central limit theorems with applications to causal inference. Journal of the American Statistical Association, 112, 1759-1769。
5见内曼的传记:C. Reid (1982), Neyman – From Life。注意,哥白尼和内曼都是波兰人。
6另外一位受内曼影响的是计量经济学家Trygve Haavelmo。他是在计量经济学中讨论因果推断的先驱。他曾在1989年诺贝尔经济学奖的获奖感言中谈及内曼对他的影响:https://www.nobelprize.org/prizes/economic-sciences/1989/haavelmo/facts/。
7文章是Rosenbaum and Rubin (1983) The central role of the propensity score in observational studies for causal effects, Biometrika, 70, 41-55。在纪念Biometrika第一百期的时候,这篇文章的引用数在该杂志排名第二;参看 Titterington (2013) Biometrika highlights from volume 28 onwards, Biometrika, 100, 17-73。截至写作本文的时候,Google Scholar 显示这篇文章已经被引用了28392 次,已经超越了之前引用最高的文章Liang and Zeger (1986) Longitudinal data analysis using generalized linear models, Biometrika, 73, 13–22(Google Scholar显示引用了18345次)。这种改变,反映了近十年来,因果推断的研究在学术界的极端活跃性。另外,Biometrika创刊于1901年,是最早的理论统计杂志之一。
8第一本是Rubin (2006) Matched Sampling for Causal Effects。第二本是 Imbens and Rubin (2016) Causal Inference for Statistics, Social, and Biomedical Sciences: An Introduction。两书均由剑桥大学出版社出版。
9比如A. P. Dempster就用一个无向图来表示联合正态分布中的条件独立性:给定其他变量,如果两个变量条件独立,那么他们之间的边不存在。他的文章是: Dempster, A.P. (1972) Covariance selection. Biometrics, 157-175。
10 珀尔的开创性文章是:Pearl (1995) Causal diagrams for empirical research. Biometrika, 82, 669-688.他的专著是:Pearl (2009) Causality: Models, Reasoning and Inference, 剑桥大学出版社。
11此书英文原名是A System of Logic,直接翻译过来是《一个逻辑体系》,严复先生认为“逻辑学”就是中国的“名学”,这一学派兴起于先秦,代表人物有公孙龙等。这本书在英语世界产生过很深远的影响,其中五条“穆勒方法”总结了归纳推理中,获得因果知识的一些准则。严复先生是北京大学从“京师大学堂”更名后的第一任校长,也曾任复旦大学校长。
12 原书这章的题目是“On observation and experiment”。按照现在的习惯,“experiment”统一翻译成“实验”。前面用到的“临床试验”对应着“clinical trial”。“实验”和“试验”的意思似乎差别不大;中文英文皆如此。
13 Geng (1992) pp. 585-593; Geng and Asano (1993), pp. 741–747; Guo and Geng (1995), pp. 263-267; Geng, Guo and Fung (2002), pp. 3-15; Ma, Xie and Geng (2006), pp. 127-133。
14Prentice曾获得年轻统计学家的最高奖COPSS奖章,终身成就奖“费希尔讲座”,他是美国医学院院士。鲁宾是因果推断的奠基人之一,曾获得终身成就奖“费希尔讲座”,美国科学院院士。Lauritzen 是英国皇家学会院士。
15 Chen, Geng and Jia (2007), pp. 911-932; Ju and Geng (2010), pp. 129-142; Jiang, Ding and Geng (2016) pp. 829-848。
16 文章是VanderWeele (2013) Surrogate measures and consistent surrogates. Biometrics,69, 561-565。VanderWeele曾获COPSS奖章。
17https://terrytao.wordpress.com/2014/06/05/when-is-correlation-transitive/
18Xie and Geng (2008), pp. 459-483; Ma, Xie and Geng (2008), pp. 2847-2880; He and Geng (2008), pp. 2523-2547; Liu et al. (2020)。
19 本希奥的文章Towards Causal Representation Learning出现在https://arxiv.org/abs/2102.11107。
作者简介
丁鹏,2004年至2011年在北京大学数学科学学院获得本科和硕士学位,2015年获哈佛大学统计学博士学位,2016年起任教于加州大学伯克利分校统计系,2021年晋升为副教授。其主要研究方向是因果推断。
致谢
郭建华(东北师范大学)、 蒋智超(美国马萨诸塞大学)、 苗旺(北京大学)、 张俊妮(北京大学)、 潘昆峰(中国人民大学)、 黎波(清华大学)、 刘中华(香港大学)、 鞠念桥(美国哈佛大学)和宁少阳(美国威廉姆斯学院)给作者提出了宝贵的建议。美国密歇根大学生物统计系的宋学坤教授仔细阅读并修改了本文的初稿。
●他们说,哲学不应该只是小圈子的游戏
什么是虚无主义?
柏拉图主义者为什么这么好色?
刘擎:平静接受一个伟人的污点
生命哲学:不要试图摆脱欲望,而要尝试理解欲望
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://haidsoft.com/167924.html