大数据怎么可以判断因果性(大数据中的因果关系)
本文刊载于《三联生活周刊》2020年第15期,原文标题《大数据中的因果关系》,严禁私自转载,侵权必究
《为什么》一书借助因果关系之梯的三个层级,揭示了因果推理的本质,并据此构建出相应的自动化处理工具和数学分析范式。
文/张留华
美国计算机科学教授朱迪亚·珀尓
普林斯顿大学数学博士达纳·麦肯齐
美国计算机科学教授朱迪亚·珀尔和普林斯顿大学数学博士达纳·麦肯齐在《为什么》一书中提出:福尔摩斯主要依靠个人的超强记忆或探案艺术去确定原因,如果我们把因果推断的原理教给计算机,实现“因果推断”的自动化处理,未来在人工智能的帮助下,人人都可以成为福尔摩斯,甚至比福尔摩斯“算”得更快更准。
这当然是一项创举,很多科学家和哲学家都曾有过这样的设想。那么,我们该如何教会计算机进行“因果推断”呢?首先,得理清“因果”观念。因果思维是人类古老的、伴随条件句使用的一种认知方式,而且有层级之分。譬如,当你看到一个人按着头部难过的样子,可能想到他头痛。这种形如“如果我看到A就会想到B”的条件句表达了一种“关联”,是最初级的因果关系。然后,你打算主动提供阿司匹林给他服用,看他是否还头痛。于是就有形如“如果我实施行动A,就会有结果B”的条件句。这里表达的是一种“干预”,属于第二层级的因果关系。其中的A不再是被动接受的所观察之物,而是你主动采取的一种行动。而待他服药后不再头痛时,你可能又设想:假若我刚刚没有及时给他服用阿司匹林,不知道会怎样?这时的条件句形式为“如果我当时做的是A,结果可能是B”,它所表达的是一种“反事实”,即,其中的A是一种虚拟的、未曾发生或不可能发生的情况。从“关联”到“干预”再到“反事实”,三者构成了“因果关系之梯”。它描绘了人类意识进化和个体认知能力提升的三个阶段,也代表着机器模拟人类思维(人工智能)的三个台阶。当前已出现的人工智能产品,只停留在“关联”这个初级阶段,连小孩子的因果思维水平也赶不上。要想走向更强的人工智能,必须沿着“因果关系之梯”继续攀升,让计算机不只是被动接受信息,而且能学会更高级的因果思维能力,尤其是“反事实”的因果推断。只有把“反事实”的可能性考虑在内,我们才能突破现有观察数据的局限,去把握一种代表一般性规律的、能灵活应对未来不确定情况的因果关系。对“反事实”可能性的思考是人类区别于类人猿祖先以及地球上其他生物的重要特征。事实上,我们熟知的科学定律很多都是“反事实”条件句,比如牛顿力学第一定律,其精确的表达方式是:任一物体,假若不受外力作用,一定保持静止或匀速直线运动状态。这里的“假若”情形(某一物体不受外力作用)显然是我们观察不到的“反事实”。
《为什么》
接下去要做的是,借助于因果图及其背后的主观概率理论,从既有观测数据中推算“原因”。要推算一种现象背后的原因,往往要考虑多个可能相关的因素。通过适当的概率计算,我们可以估量各种“因”的相对重要性。在此过程中,我们经常需要试着改变某一变量的状态值,并预言如此干预或想象之后会有什么样的概率变化。在利用科学界积累的观察和实验数据进行模拟计算之后,可能要重新规划模型,修改原有的因果图,直至达到关于某一种现象之因果关系的“最佳解释”。这就是科学逻辑上著名的外展法(Abduction,或译为“溯因法”)。计算机遵循外展法进行因果推断并由此反思自身的错误,相比基于固定规则而开展的演绎,这毋宁说是更接近了人类的智能。
相比于主流统计学的保守做法,这套“因果关系”理论或显得有些激进。但此种激进并不等于冒进。它巧妙地把定量的经验数据和定性的因果模型结合起来,一方面用因果图来统合和理解数据,反过来又用数据来评估和修改之前的因果判断。此种策略不仅符合普通人(包括福尔摩斯那样的侦探)的认知实际和决策路径,也与逻辑学家对于科学方法实践的刻画保持一致。更为直接的一点是,它能很好地解决统计学方法论中的“混杂因”难题。以上世纪五六十年代科学界关于吸烟是否会导致肺癌的争论为例,现在看来,这似乎是常识。但何以说服那些嗜烟人士或怀疑论者呢?毕竟,有些人一辈子吸烟却从未得过肺癌,另一些人从不吸烟却患上肺癌。为了消除这些混杂因子作为“虚假因”的可能性,我们或许需要更多实验证据,采取随机对照实验。但是,这种研究方法在这里既不可行,也不合乎职业道德。科学家怎能随机挑选一些人作为被试,让他们连续吸烟30年,只为了看30年后会否患上肺癌呢?这种排除混杂因子的困难,一直让很多统计学家焦虑不安。或许也正因为如此,他们宁愿只谈“相关”而不讲“因果”。然而,如果我们通过因果模型来考虑这个问题,综合比较各种“因素”的相对重要性,并愿意调用(即“迁移”或“融合”)科研人员业已掌握的科学证据(尤其是之前所取得的观察性和试验性成果,包括白鼠试验、烟雾致癌物成分等等)来计算所需要的条件概率,最后将能严密地推断出:在“长期吸烟”之外没有任何其他因素更有可能是导致美国当时“大批肺癌”的主因。
类似这样为“因果模型”路径辩护的真实而生动的案例,读者可以在书中找到很多,透过作者对当代科学前沿中核心概念的历史溯源和因果图重释,你还会懂得为何处决犯人时配置两人以上的行刑队可以减轻行刑人员的愧疚感,也会明白计算机程序是如何快速识别遇难者DNA的。
总体来看,作者在哲学上坚信决定论与自由意志之间并无冲突,或许也正因为如此,他似乎相信一切“为什么”问题都可以转换为因果推断。甚至一些通常看来只关乎理由选择而不牵涉原因的例子,如一个人问:“你为什么这么做?”你回答说:“因为我想打动你。”回答者看似拥有的自由意志被认为是一种幻觉,因而在模拟人的这种思维过程时,我们只需教会计算机进行反事实的因果推断并让其表现出类似自由意志的幻觉即可。这种论调势必会在人文学者或其他科学家那里引起一些异议。不过,作者对“因果性”诸多难题的敏感及其在这方面所做出的跨学科探索是令人敬佩的,也可以期待它们会推进当前人工智能的转型升级。
更多精彩报道详见本期新刊《重新看待亲密关系:被疫情改变的我们》,点击下方商品卡即可购买,
免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com