自闭症儿童的智能发展(AI诊断自闭症准确率或超95)
麦克斯(Max)六岁时,被诊断出患有自闭症。此前一年,麦克斯的幼儿园老师就从他的行为中,注意到一些蛛丝马迹。比如,这个小男孩会完全沉浸于书中,忽略身旁发生的一切。不过,直到麦克斯开始无视自己的老师,父母才找来儿童心理学家,对他进行评估。
麦克斯被诊断为轻度自闭症。有些讽刺的是,麦克斯的父亲马丁·斯坦纳(Martin Styner)是北卡罗来纳大学教堂山分校的精神病学和计算机学副教授,他职业生涯中很大一部分时间都在研究自闭症。斯坦纳感到十分疑惑:难道他一直在自我欺骗,才没能看到先前的种种征兆?
考虑到自闭症的复杂性和多变性,即便是斯坦纳这样的专家也不能一目了然,这也不足为怪。即使发现了征兆,确诊也颇费时日:有时,家长要带着孩子,前往最近的一家自闭症诊所,接受面对面诊疗好几次,才能确诊。这样的诊所并不好约,而且预约到的诊疗时间,也许是好几个月以后。
这种现状导致了自闭症检测的滞后:虽然早在2岁时,患儿就能得到精确诊断,但在美国,自闭症儿童的平均确诊年龄为4岁。要知道,诊断越早,治疗效果往往会越好。
AI诊断自闭症:手段可靠 潜力无限
有研究人员表示,作为人工智能技术的一部分,机器学习正在不断发展,这有望缩短自闭症诊断的滞后时间。具体而言,他们把希望寄托于最新版本的机器学习上,即深度学习。“自闭症一直都是机器学习的研究对象之一。”斯坦纳说,“但它的手段与应用始终不够强大,没能对临床诊断带来实质性的影响;不过,随着深度学习技术的进步,这种局面正得到改观。” 深度学习的强大之处在于,它能在各种特征组合之中,找出一些微妙的行为特点,这些特点或容易被人忽视,或尚未与自闭症挂钩。也就是说,深度学习很适合辨析自闭症的异质性特征,斯坦纳说。人类直觉和统计学分析会寻找一种单一特质,以统一区分自闭症和非自闭症儿童,这样的特质或许并不存在;而深度学习算法所找寻的,则是差异集群。
不过,这些算法还是严重依赖人类输入。为学习新任务,算法要用数据集进行“训练”。这些数据集经由人类的标记,通常包含数百或是数千个例子,其中有“对”,也有“错”,比如微笑和没有微笑的儿童。通过高强度训练,在其他领域内,深度学习应用的准确性已经能够匹敌人类专家,有的甚至超过了他们。
“我想,这些手段将来会变得很可靠,而且是量化、可扩展的。它们还将揭示出我们此前未曾意识到的自闭症新模式、新信息。”杜克大学精神病学与行为科学教授杰拉尔丁·道森(Geraldine Dawson)表示。她说,机器学习算法不仅能帮助临床医生及早筛选出自闭症儿童,还有望提供治疗线索。
不过,并不是所有人都看好算法的前景。不少专家指出,这些工具面临一些技术和伦理上的障碍,短期内不太可能逾越。深度学习——以及更广泛的机器学习——并不是什么“魔法棒”,南加州大学洛杉矶分校电气工程与计算机科学教授施里坎斯·纳拉亚南(Shrikanth Narayanan)说。自闭症的诊断,以及计算机的误差率,这些对自闭症儿童及其家庭都“影响深远”。但和该领域很多人一样,他也乐观地认为,机器学习可以将遗传学、脑成像和临床观察等领域的自闭症研究整合起来。“对整个自闭症谱系而言,其潜力不可限量。”他说。
挑战:收集大量数据
为实现准确预测,机器学习算法需要大量的训练数据。这给自闭症研究构成了严峻的挑战,因为多数涉及诊断的数据都来自煞费苦心的临床观察,因而也十分有限。有研究人员已开始使用带摄像头的移动设备或可穿戴传感器,追踪行为和生理信号(比如四肢动作和目光),以期建立更大的数据集。
2016年,欧洲的DE-ENIGMA项目基于62名英国自闭症儿童和66名塞尔维亚自闭症儿童,开始构建首个免费访问的大型数据库。截至目前,该数据集已囊括152个小时的视频,记录的均为这些儿童与大人以及机器人的互动。“这个项目的主要目标之一,就是创建一个数据库,用于训练机器学习,使之能识别情绪和表情。”DE-ENIGMA机器学习专家、伦敦帝国学院计算机科学家沈捷表示。
杜克大学的道森团队也在收集自闭症儿童的视频,它借助的是为“自闭症及其他”(Autism and Beyond)项目开发的一款移动应用。2017年,也就是该项目启动的头一年,1700多个家庭参与其中,上传了约4500段患儿视频,并回答了调查问卷。“我们一年收集到的数据,专家们可能要一生才能积攒起来。”杜克大学电气与计算机工程学教授吉列尔莫·萨皮罗(Guillermo Sapiro)说。他正在开发该应用的下一个迭代版本。
该团队也在训练一个深度学习算法,用于解读视频中的行为,并检测某些特定行为——道森称之为“数字表型”。在国际自闭症研究学会今年的年会上,道森展示了针对104名幼儿的研究成果,其中包含22名自闭症患儿。平板电脑的摄像头记录了这些孩子的面部表情和头部动作。算法从中发现了一个规律:当有人呼唤自闭症儿童的名字时,他们的反应会延迟两秒钟。道森指出,这种轻微延迟很容易被临床医生忽视,但对自闭症而言,这是一种重要的警示信号。
但这种方式有一个缺点:在实验室或诊室的架构之外收集数据,有时会乱了章法。萨皮罗说,在“自闭症及其他”项目中,算法对一位参与者的评估令他感到疑惑。那位小女孩既表现出相应发育阶段的典型行为,也表现出一些非典型行为。萨皮洛观看了女孩的视频,很快,他发现了是怎么回事:白天,她的行为是典型的,但到了晚上,也就是疲惫时,非典型行为就出现了。
若能结合传感器捕捉到的儿童行为信息,研究人员的解读也许能更加轻车熟路。在亚特兰大的乔治亚理工学院,一个科学团队正在探索这一途径,他们称之为“行为成像”。格雷戈里·阿博德(Gregory Abowd)是其中一位科学家,他有两个儿子都患有自闭症。“大儿子不说话,小一点的那个说话,但不能有效沟通。”阿博德说。他的大儿子两岁时被确诊患有自闭症,三年后,也就是2002年,他说,“我开始认真思考,作为一名计算机科学家,我能做些什么,去应对与自闭症有关的挑战。”
乔治亚理工学院的科学家正在研究传感器,用于追踪形形色色的生理与行为学数据。在一个项目中,他们使用了可穿戴加速器,监测可能预示着问题行为的身体动作,比如自我伤害。另一个项目中,他们在眼镜鼻梁上安摄像头,便于追踪儿童玩乐时的目光活动。
计算机科学家詹姆斯·雷格(James Rehg)说,这样做就是想训练机器学习算法,让它们能利用这些信号,自动判断出儿童最终能拥有多少社会沟通技能。“这是激动人心的时代中一个激动人心的领域,而这正是因为,我们在探索这么多的信号以及不同种类的信息。”雷格说。
有了全方位的行为数据,我们还有望围绕与自闭症同时发生的症状,提取有用的线索。海伦·艾格(Helen Egger)是纽约大学朗格尼医学中心儿童与青少年精神病学主席,她指出,更大的数据集或许有助于区分自闭症和其他症状——比如焦虑、多动症,辨析它们之间重叠的行为特质。“这些工具必须能应用于整个谱系,以便区分自闭症和非自闭症。”她说。
有研究团队希望训练出更加敏感的机器学习模型,从而在行为症状浮现之前,就将自闭症检测出来。
斯坦纳是“婴儿脑成像研究”(IBIS)的一员,该研究网络在美国拥有四个站点。斯坦纳正和IBIS的同事们利用深度学习,针对自闭症儿童的弟弟或妹妹(共计300余人),对他们的脑部扫描进行分析。科学家已经知道,这些“弟弟妹妹”患自闭症的风险高于常人,因而在这个群体中,发现自闭症征兆的机率也会更高。2017年,IBIS发布了两项研究,其机器学习算法发现了一些特定的脑部发育和神经连接模式,并且,在算法所作的自闭症诊断预测中,80%都是准确的。
“我们的研究跟其他许多机器学习研究有一个关键区别:我们对后期诊断结果的预测,是在症状出现前作出的。”北卡罗来纳大学教堂山分校的约瑟夫·皮文(Joseph Piven)说,他是该校发育障碍研究所的精神病学教授兼主任,也是IBIS的一名研究员。“若结果能成功复制,它对临床实践显然会有帮助。”
靠脑成像数据训练出来的机器学习,它所能提供的答案,或许不仅限于诊断预测中的“是”或“否”,斯坦纳说。它也许还能预测儿童在自闭症谱系中所处的位置——从轻度一直到重度。“这是我们的目标,从我们还有其他人的研究中可以看出,这绝对有可能实现。”他说。
但脑成像数据的收集受到一个因素的限制:参与者必须找到一台磁共振成像设备,可这些设备笨重、昂贵,而且用在儿童身上时,得格外谨慎。要监测自闭症的早期症状,还有一个更灵活的选项,那就是脑电图。它通过便携式的电极帽,对脑电活动展开监测。“在临床护理实践中,这依然是唯一能广泛应用的脑测量技术。”旧金山大学健康信息学、数据科学和临床心理学副教授威廉·博斯(William Bosl)表示。
机器学习算法只是脑电图这个等式中的第一部分。第二部分被博斯称为“秘密配方”,即通过计算机途径,给这些信号去噪,使数据中的模式更容易被检测出来。2018年的一项研究中,博斯和同事们使用这一算法组合,针对99名“弟弟妹妹”和89名低风险婴儿(其中最小的只有三个月),展开了持续近三年的脑电图监测。使用这些脑电图数据,预测结果符合自闭症权威检测工具ADOS的轻重程度评分。
不过,研究人员提醒,这些算法的前景再光明,也无法揭示其预测性发现的生物学意义。“计算机固然能从脑电图信号中,辨别出一些内容,但对于这些内容的本质,我们无从了解。”波士顿儿童医院发育医学中心的研究主任查尔斯·尼尔森(Charles Nelson)说,他是这项脑电图工作的领队之一。“也许它是一个很好的生物标记,可预测后期结果,但它并未告诉我们,这些儿童为何会得自闭症。”
与脑成像或行为学数据的研究一样,脑电图研究依赖的数据集也较小,这就导致一些棘手的问题。比如有时,一个算法对某个数据集已是了如指掌,以至于无法将所学泛化,应用到更大、更复杂的数据集中,博斯说。这种问题被称为“过度适配”。正因为它的存在,我们就更有必要通过其他研究,对结果展开验证,而且,这些研究最好来自其他的独立团队。
当训练数据集中包含相等数量的自闭症与非自闭症儿童时,另一个常见的陷阱就出现了,斯坦纳说。现实情况是,自闭症患儿在所有儿童中的比例并非一半一半;在美国,这个比例接近1:60。因此,当算法脱离训练数据,应用到现实世界时,鉴别自闭症患儿的难度将大为增加:原先是从100捆稻草中寻找100根缝衣针,现在要在6000捆稻草中寻找100根针。
瓶颈如何突破
考虑到上述种种挑战,很多自闭症研究人员仍不愿仓促行动,将机器学习应用商业化。但有少数人与初创企业展开了合作,或自己创办企业,以期突破自闭症筛查的瓶颈。
乔治亚理工学院的阿博德,同时也是爱达荷州Behavior Imaging公司的首席研究官。该公司创立于2005年,创始人的儿子在3岁时,被诊断患有自闭症。该公司提供远程医疗解决方案,比如“自然观察诊断评估”应用,允许临床医生基于家长拍摄并上传的视频,远程开展自闭症诊断。
Behavior Imaging有一项正在进行的研究,旨在训练机器学习算法,以鉴定视频中儿童的行为。它们将这些行为鉴别出来,再打上时间戳,从而帮助临床医生择取重点,以免他们从头到尾观看整段视频。医生也可以对这些时间点予以肯定或纠正,帮助改进算法。“这将成为一种临床决策辅助工具,围绕现实中自闭症的非典型行为,不断丰富医生的专业知识。”Behavior Imaging创始人罗恩·奥伯莱特纳(Ron Oberleitner)说。
说到计算机辅助的自闭症筛查,更有野心的愿景来自Cognoa——加州帕洛阿尔托的一家初创企业。该公司提供一款移动应用,基于约25个多选题和儿童活动的相关视频,向家长提供风险评估。Cognoa希望,它的另一款应用最终能获得美国食品药品监督管理局(FDA)的批准,该公司称,这款应用能帮助儿科医生更好地诊断自闭症,并直接推荐确诊患儿接受治疗。
Cognoa成立于2013年,创始人丹尼斯·沃尔(Dennis Wall)现为斯坦福大学研究员。他说,继2012年发表了两篇论文后,他开始坚信,其机器学习算法可以通过训练,使自闭症诊断在准确度和速度方面,都超过ADOS和ADI-R这两种筛查工具。“我们稳稳地迈出了一步,也为未来的工作奠定了坚实的基础。”沃尔说。
但沃尔发表于2012年的论文并未让所有人信服。包括纳拉亚南在内,多名批评者在2015年的一篇分析中指出,两项研究使用的数据集较小,只将严重自闭症儿童纳入考量,而将最复杂、最难诊断的自闭症形式排除在外。他们指出,在现实世界中,沃尔的算法会漏诊很多临床医生不会错过的病例。2014年,沃尔又发表研究称,在另一个包含中度谱系障碍的独立数据集中,该算法的表现依然很好。他承认,2012年的研究中使用的数据集确实较小,但也表示,后来的研究使用了更大的数据集,而算法所得结果依然成立。
2016年,纳拉亚南和合作者们也描述了一种方式,通过机器学习来简化自闭症的筛查与诊断。在结论中,他们提醒大家注意:算法训练中,用到的数据集来自那些主动为子女寻求自闭症诊断的家长。因此,算法虽然表现良好,但有待投入更大、更多样化的人口之中,接受进一步检验。“我们可以对照临床仪器的算法,对机器学习进行微调,这里有很大的改进空间。”纳拉亚南的合作者、科技初创企业Yomdle的资深科学家丹尼尔·伯恩(Daniel Bone)表示。“相较于近几十年所用的统计学方式,机器学习是否带来了里程碑式的进步?我尚未看到这方面的明确证据,包括在我自己的研究中。”
但一味地收集数据,用来训练机器学习算法,也不一定管用,伯恩的协作者凯瑟琳·洛德(Catherine Lord)说。她是自闭症和脑发展中心的创始人,也是ADOS的开发人。洛德指出,有时,一种算法看似成功,它有着显而易见的原因,只是不被承认罢了。例如,男孩确诊自闭症的概率是女孩的四倍,而比方有这么一项机器学习研究,它看似成功预测了自闭症与非自闭症的区别,但实际上,它所检测到的,可能只是性别差异,或是智力差异。“错不在机器学习。”洛德说,“而在于人类评审,以及一种普遍观念,即只要研究对象足够多,你就无所不能。”
有团队宣称,机器学习预测自闭症的准确率可以远超95%,但研究人员表示,在更严格的测试条件下,这种比例是经不起检验的。只要一日不达到这一水准,算法的临床应用就遥遥无期。而且,没有经验丰富的诊断医生提供指引、参与研发,它就企及不了这样的高度:在解读已有数据时,要识别并避开明显的陷阱,我们离不开专业的临床知识。
“总体而言,我认为最大的问题是,在数据挖掘方面具备专业知识的那些人,他们涉足的是自己不懂的数据集,因为他们没有临床视角作为指引。”华盛顿大学儿科学副教授弗雷德·谢克(Fred Shic)说,“我们很有必要开展多方合作,挖掘更深层次的真相;我们要让涉猎各领域的人坐到一块儿,通力合作。”期刊编辑人员也应在机器学习领域,寻找具备专业知识的人,去审阅相关的自闭症研究,他说。
谢克还参与开发了一款平板应用,名为耶鲁自适应多媒体筛选器(Yale Adaptive Multimedia Screener),它使用视频叙述方式,解答家长有关儿童行为的问题。“我认为,它有很多优势。”他说,“但我不想言过其实,因为对这种东西而言,很多地方都可能出错。”谢克还说,要掌握更多,研究人员需要开展更大规模的研究,以及更加长期的追踪调查。
谢克说,他养成了一个习惯,就是严格审核其他研究人员使用的方式,并检查他们可曾使用独立数据集,达到同样的准确度。“当然,我们会看到很多进展,但也会看到很多糊弄人的东西。”他说,“所以,我们必须保持警惕和怀疑,保持批判的眼光,就像对待其他新生事物一样;虽然算法是建立在数学的基础之上,但并不等于它就更加可信。”
还有人指出,数学永远也解决不了机器学习诊断自闭症所涉及的伦理问题。“我们真的不应该把诊断——哪怕是早期诊断——的权力,交到机器手中,然后经由机器,向家属转达信息。”波士顿大学自闭症研究中心主任海伦·塔格-弗拉斯贝格(Helen Tager-Flusberg)说,“自闭症作为一种神经发育障碍,有时也许是灾难性的,在将孩子患有自闭症的可能性告知家长时,我们应非常慎重。”
斯坦纳则指出了“假阳性”的可能,比方说某个小孩因动作缓慢,而被计算机误诊为自闭症。“如果一个小孩没有自闭症,但Cognoa这样的工具却预测其可能患有自闭症,那它就会造成危害,很严重的危害。”他说,“除非你的预测证据确凿,否则,一旦出现假阳性,你还说什么不违反伦理道德?”
在斯坦纳的家中,事情比他预想的要好。儿子麦克斯已经11岁,学习上很有天赋,也通过社交技能班和每周一次的儿童游戏班,获益不浅。他的状况非常好,可能已经达不到自闭症的确诊门槛,斯坦纳说。
不过,身为自闭症儿童的父亲,对于家长们想拿到早期筛查与诊断结果的急切心情,斯坦纳非常能理解——这也依然激励着他,去挖掘机器学习的潜力。“家长们不但想知道诊断结果,还想知道症状轻重意味着什么,这种急切的心情我完全可以理解。”他说,“要是我,我肯定也想知道。”
翻译:雁行
校对:李莉
编辑:漫倩
来源:The Atlantic
造就:剧院式演讲,发现创造力更多精彩内容,敬请点击蓝字“了解更多”。
,免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com