算法如何影响我们(哪些算法我们可以信任)

算法如何影响我们(哪些算法我们可以信任)(1)

算法如何影响我们(哪些算法我们可以信任)(2)

算法如何影响我们(哪些算法我们可以信任)(3)

有时算法会比人类做得更好,有时则不然。”

好文4467字 | 7分钟阅读

作者:蒂姆·哈福德(Tim Harford)

2009年,谷歌的一个研究小组在世界顶级科学期刊之一《自然》上宣布了一项了不起的成就。不用知道医院的就诊记录,他们就能够追踪到流感在美国的传播情况。更重要的是,他们的反应比美国疾控中心快。

谷歌的算法是在疾控中心2003年~2008年的病例中进行数据搜索,找出规律,看看流感暴发期间,流感地区的人们在网上搜索什么,以此来建立流感病例和搜索内容之间的相关性。

“谷歌流感趋势预测”不仅快、准、省钱,还不需要高深的理论。谷歌的工程师们甚至懒得去筛选哪类搜索词与疾病传播有关联。他们只管输入流感期间网上最常被搜索的5000万个词,然后让算法自己去找规律。

谷歌流感趋势预测一炮而红,它的成功标志着商业、科技领域的热门新趋势——大数据和算法。大数据的拥趸根据谷歌流感趋势预测的成功提出了三个令人激动的观点。

第一,数据分析能做出精准的预测。

第二,每一个数据点都可以被捕获到,这就显得统计抽样模式过时了(这里指流感趋势捕获到每一次人们在网上的相关搜索)。

第三,科学建模也已经过时,引用2008年《连线》杂志中一篇煽动性文章的话,“有了足够的数据,数字能说明一切问题”。

这种模式很有颠覆性。然而,在《自然》那篇文章发表4年后,《自然新闻》却传来一个不幸的消息:最近的流感暴发还造成了一个意外的受害者——谷歌流感趋势预测。

在准确地预报了几个冬天的流感疫情后,这个无须建模、数据丰富的模型对流感突然失去了嗅觉。谷歌的数据一度比真实数据大了一倍多。不久,谷歌流感趋势项目团队就解散了。

01 数学建模真的没必要吗?

问题出在哪儿?部分原因在于上面说的第三个观点:谷歌当时不知道,也不可能知道,它的算法中有哪些搜索词是与流感暴发相关联的。谷歌的工程师没有自己做筛选,他们让算法自己在数据中寻找流感暴发的相关统计模式。

后来,谷歌的研究团队分析了这些算法算出的模式,发现了一些明显的错误相关性,而他们本可以指示算法剔除这些错误关联。

例如,算法会将“高中篮球赛”搜索与流感关联起来。原因并不神秘:流感疫情和高中篮球赛都在11月中旬开始。但这意味着流感趋势部分探查的是流感,部分探查的是冬季球赛。

当2009年夏季流感暴发时,这又成了一个问题:谷歌流感趋势预测仍然在搜索冬季球赛,自然一无所获,也就没预测出来这次非常规季节的疫情,导致他们预报的发病人数只是实际发病人数的20%。

有人说找出算法出错的原因是不可能的,但是找出两个东西是怎么关联起来的不难。一些数据发烧友,比如《连线》杂志那篇煽动性文章的作者克里斯·安德森也说过,除了相关性,讨论别的都没意义。

他写道:“先从数学的角度处理好数据,然后再为数据设定好语义环境就可以了。”数据自然会呈现一定的规律。如果真是这样,我们是不是可以这样解读安德森的话,“如果高中球赛和流感疫情同时出现在搜索结果中,二者会关联在一起的原因并不重要”。

但这当然很重要,因为这种没有数学建模的简单关联明显不堪一击。所以如果我们不清楚建立关联的逻辑,那么这种关联迟早会出问题。

算法如何影响我们(哪些算法我们可以信任)(4)

02 算法可以用来评估儿童伤害报警吗?

对于重要的事,到底是相信算法,还是相信人类,许多人都有直觉的判断。有些人对算法顶礼膜拜,有些人还是全然相信人类的智慧。事实是,有时算法会比人类做得更好,有时则不然。

如果我们想释放大数据的潜能,让它更好地为人类服务,我们需要对具体算法具体评估。但实际操作的难度总是比我们想象的要大。

譬如这样一个例子。警察局或社会救助机构接到某人的电话,称有孩子处境危险。有时报的警是实情,有时是虚惊一场,有时是想象过头,有时甚至是恶作剧。

最好的情形是,警察对任何报警电话都不敢掉以轻心,他们会立即拉起警报出警。但现实是,警力有限,不可能每个报警都出警,所以就要考虑优先出哪些警。

许多警署和社会救助机构求助于算法来做决定。伊利诺伊州引进了这样一种算法,叫作“Rapid Safety Feedback”(快速安全反馈,简称RSF)。它对每一次报警进行数据分析,和以前的案例结果进行比对,将儿童可能死亡或受到严重伤害的风险用百分比的形式做了预测。

预测效果很一般。《芝加哥论坛报》报道说,该算法给369名儿童打了100%的概率,也就是说,这些儿童一定会受重伤甚至死亡。但是,我们说,即便一个家庭的环境很恶劣,如果算法预测儿童一定会死亡也过于悲观了。

这样的算法还可能产生连带的不良影响,譬如,无辜的父母被控虐童或失职,这对父母和孩子都会造成可怕的后果。

也许算法是出于谨慎,夸大了伤害的风险,目的是不遗漏任何一个可能的风险?并非如此。因为也存在一些可怕的案子,由于算法打的风险分值低,没有出警,结果幼儿死了。

所以,最后伊利诺伊州认定这项技术没用,甚至会让情况更糟糕,于是停止使用了。

这个故事的寓意并不是说算法不可以用来评估儿童伤害报警电话。我的意思是最后一定还是由人来做决定要不要出警。

错误在所难免,为什么算法没有比人工客服判断的正确率高也无法解释。这个故事的寓意在于,因为这个特定算法给出了明显荒谬的数字,让我们知道了这个算法的局限性,从而对它的正确性警觉起来。

算法如何影响我们(哪些算法我们可以信任)(5)

03 算法会有种族歧视吗?

问题不在于算法,也不在于大数据集。问题是算法需要审查、有透明度和允许讨论。

但是怎么做呢?

一种方法是由茱莉娅·安格温领导的ProPublica调查记者团队使用的。安格温的团队希望仔细研究一种被广泛使用的算法,称为COMPAS(罪犯惩戒管理分析,用于替代制裁)。COMPAS使用含有137个问题的问卷来评估罪犯再次犯罪的风险。它起作用了吗?公平吗?

以下是“以人民的名义”调查小组如何开展工作的自述。

我们向佛罗里达州的布劳沃德县警署申请调阅监狱记录并获准。我们获得了2013年和2014年两年共计18610人的COMPAS打分情况。

COMPAS给每个被告出庭前打了至少三种分数:“累犯风险”“暴力行为风险”和“拒不出庭风险”。我们要评估的是每个被告在得分前后的表现和得分预判的一致性。

我们又从布劳沃德县警署办公室网站下载了截至2016年4月1日本地所有的案件记录,将我们数据中的被告和下载的犯案记录进行比对。

调查结果显示,尽管COMPAS算法没有以违法者的种族作为预测指标,但是预测结果有明显的差异性。算法更容易给黑人违法者打高分,而给白人违法者打低分。

这不免让人担忧:人类有种族歧视的劣根性,但已经将其视为不道德也不合法的行为;如果算法也会导致这种行为,我们同样不能容忍。

但随后,四位专业技术人员利用ProPublica调查小组辛苦整理的数据,通过另一个重要指标证明了算法是公平的,即如果算法给一个黑人、一个白人两个违法者打的是相同的风险评级,而实际表现中,这两个人的再次犯罪概率也的确是一样的,从这个角度讲,算法并没有种族歧视。

此外,技术人员还指出,算法不可能同时在两个方面对所有种族都公平,要么在错误率的比例上平等,要么在风险评分上平等,但不可能两个同时兼顾:数据没法平衡。

因此,要看这个算法打分是不是公平,唯一的方法是忽略违法者群体的年龄、性别、种族、发色、身高等差异,纯粹看他们的实际行为和算法得分的匹配度。

但算法如果以这种标准打分,出来的结果势必在年龄、性别、种族、发色或身高等方面有不稳定的表现,就会被视为有失公允。

所以,不管算法是否将以上因素考虑进去,都会顾此失彼,难以平衡,这是事实。换作法官也是如此,所以这是一个取舍的问题。

ProPublica已经公布了足够多的算法预测数据,允许人们再调用它,用其他变量进行有意义的测试。其中之一是一个简单的数学模型,只有两个变量:罪犯的年龄和以前犯罪的次数。

计算机专家茱莉娅·德莱塞尔和汉尼·法里德发现,双变量模型和广受吹捧的137个变量的COMPAS模型的准确率是一样的。最后,他俩做了人与算法准确率对比的实验。

他们测试了一些普通人,给他们看了每个违法者的7条相关信息,让他们预测这些违法者是否会在两年内再次犯罪,结果是其中一些普通人的预测平均值高于COMPAS算法。

这个结果有点让人猝不及防。正如法里德说的,如果算法将一个违法者评为高风险者,法官可能会听信,但如果我们告诉法官“我们在网上进行了20个人的采访,他们都说这个违法者会再次犯罪”,法官不大可能会考虑我们的意见。

要求COMPAS算法的准确率高于20个来自互联网随机网民的判断过分吗?然而COMPAS算法居然没有达到这个水平。

算法如何影响我们(哪些算法我们可以信任)(6)

04 什么样的算法经得起检验?

就像人一样,算法也分可以相信的算法和不可轻信的算法。这与区别对待他人一样,不要问:“我们应该相信算法吗?”我们应该问:“我们可以信任哪些算法,我们可以把什么东西交给算法去做?”

奥诺拉·奥尼尔认为,如果算法要证明它的可信度,首先要证明“它的智能经得起检验”。为此,她列了一个清单,即智能经得起检验应该具备的四个属性。

首先,数据应该是可访问的,这意味着它们不被深藏在某个秘密数据库的深处而不能为公众所用。

其次,数据结果应该清晰易懂。

再次,算法结果应该以可利用的形式呈现,也就是说,结果应该是标准的数字格式的。

最后,算法结果应该是可测评的,即任何有时间和专业知识的人想要严格测评算法有效性,都可以调取算法的详细资料。

奥尼尔的原则很有道理,毕竟很多算法都事关人命,例如,是否应该释放一个案犯,接到虐童的报警电话是否出警。所以我们应该引进外部的专家来测评算法的有效性。

人类有法律保证,例如,禁止种族歧视和性别歧视,我们需要确保算法也不能出这样的纰漏,至少在法庭上不会被找到这样的漏洞。

《算法霸权:数学杀伤性武器的威胁与不公》的作者凯西·奥尼尔认为,数据专家应该像医生一样,成立一个专门的组织,来规范职业道德。至少,这可以为有问题要举报的人提供一个去处。

算法与医学实践还有一点类似,重要的算法也应该使用随机对照试验进行测试。如果一个算法的程序员声称他的算法可以测评出老师是否应被解雇,或者犯罪嫌疑人是否应被保释,我们的回答是“证明它”。

任何对他们算法有信心的人都应该欢迎公众的检验。除非那些算法可以证明自己,否则我们是不能把学校和法院这样重要机构的评估托付给算法的。

大数据正在改变我们周围的世界,如果电脑以人类不能理解的方式代替人类做决定或预判,自然会遭到排斥。我认为人类的担心并不多余。

现代数据分析可以产生一些奇迹般的结果,但大数据往往不如小数据可信。小数据通常可以被核实,大数据往往被深藏在硅谷的地库里。分析小数据的统计工具也容易检验,但模式识别算法则容易成为商业领域敏感的神秘黑匣子。

所以我认为我们既要抵制人们对大数据和算法的炒作,也要警惕对它们的全盘否定。涉及要紧的事情,我们应该就事论事地不停追问:

  • 底层数据是否可访问?

  • 算法的性能是否进行了严格的评估?

  • 是否允许外部专家对算法进行评估?他们的结论是什么?

我们绝不可以把算法和人都绝对化,认定一个怎么都比另一个好,这样一刀切的想法才是个大大的陷阱。

作者简介:蒂姆·哈福德,英国皇家统计学会荣誉会员,牛津大学纳菲尔德学院的一员,著有《混乱》《卧底经济学》《塑造现代经济的100大发明》等书。

本文摘自他的新书《拼凑真相:认清纷繁世界的十大数据法则》(中信出版社,2022年)。

- End -

算法如何影响我们(哪些算法我们可以信任)(7)

算法如何影响我们(哪些算法我们可以信任)(8)

海量实操案例全球管理精华

0~100岁企业都在看

扫码订阅,享特别价

算法如何影响我们(哪些算法我们可以信任)(9)

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页