opencv人脸识别精度(CVPR19Oral评审排名Top)
【新智元导读】AI的视觉系统不能完全模拟人类的“注意力转移”机制。但近期,由南开大学程明明团队(论文一作:范登平)研究的数据集和模型,使得AI的视觉离人类更近了一步!该论文已被CVPR 2019收录为Oral(所有评测结果和代码即将公布)。
AI的视觉离人类更近了!
对人类来说,我们肉眼在看事物的时候,注意力会随着事物的变化而发生改变。例如:
当我们看上面GIF图时,我们一开始的注意力会集中在老师的身上;而当他拿起书时,我们的注意力又会集中在书本身上。
这样的一个“注意力转移”机制,对人类视觉系统来说当然是小菜一碟。而对AI,却并没有那么容易。
来自南开大学计算机学院的程明明教授团队(论文一作:范登平博士)、起源人工智能研究院IIAI(Inception Institute of Artificial Intelligence)王文冠Research Scientist以及北京理工大学沈建冰教授,针对此问题提出了“聚焦视频显著性物体检测”的解决方案:首次明确强调了视频中的显著对象可能会动态改变。
团队为了让AI的注意力转移机制更加逼真,主要做了如下工作:
- 构建了一个和人类视觉注意力相一致的、稠密标注的DAVSOD数据集,有226个视频、2.4万帧,涵盖了不同的真实场景、对象、实例和动作;
- 利用已建立的数据集和之前7个VSOD数据集,对17种最先进的模型进行了全面评估,使其成为最完整的VSOD评测(耗时8000余小时);
- 提出了一个面向显著性转移的VSOD基础模型,可通过学习人类注意力转移行为来有效地捕获视频动态显著性。该模型已经近乎接近实时的效果,首次让视频显著性应用到真实场景中成为可能。
该论文已被CVPR 2019收录为Oral。
工作成果链接(论文目前未公布):
http://dpfan.net/publications/
DAVSOD数据集:与人类注意力相一致、稠密标注的数据集
DAVSOD数据集专门为VSOD任务设计的。
图1 DAVSOD数据集的标注示例。所包含的丰富标注,如显著性转移,对象/实例-级VSOD用户标注,显著对象的数目,场景/对象类别以及相机/对象运动模式,这为VSOD任务提供了坚实的基础并使得各种潜在应用收益。
图2 DAVSOD数据集中的视频示例。其结果由实例-级用户标注的分割结果和注意视点图(右下角)叠加而成。
图1和图2展示了带标注的视频帧。
视频采集DAVSOD的视频序列源自DHF1K,DHF1K是当前最大规模的动态眼动追踪数据集,利用其构建DAVSOD数据集的好处有:
- DHF1K是从Youtube上收集的,涵盖了各种现实场景、多种物体外观和运动模式、丰富的对象类别,以及动态场景中大部分常见的挑战;
- DHF1K所提供的视觉注视点可以得到更合理的、生物启发的对象-级显著性标注。
图3(c) 关于DAVSOD数据集的统计数据:(c)每个视频序列中的图像帧。
以手工的方式将视频分为小片段(图3.c)并删除那些带黑屏过渡的片段,最终得到了一个大型数据集:包括226个视频,共计23,938帧,798秒。视频分辨率为640*360像素。
数据标注⑴显著性转移标注
在真实的动态场景中,人类的注意力行为更加复杂。通过DHF1K的眼动追踪记录,可以观察到数据驱动的注意力转移普遍存在,如图1所示。
然而,之前VSOD领域中的研究都没有明确强调这种基本的视觉注意行为。在DAVSOD中,根据真实的人类注视点来标注显著的对象,并且首次标注了注意力转移所发生的时刻,强调了该领域中显著性转移这一更具挑战的任务。
⑵场景和对象类别标注
人类活动有4个子类:运动、日常、社交以及艺术活动。至于对象类别,和MSCOCO一致,只包含“事物”。
如此,就可以建立一个大约70个最常出现的场景/对象列表。
图3(a) 关于DAVSOD数据集的统计数据:(a)场景/对象类别。
编辑
请点击输入图片描述
图3(e) 关于DAVSOD数据集的统计数据:(e)表示(a)中场景类别之间的相互依赖关系。
图3(a)和(e)中,分别展示了场景/对象类别及其相互依赖性。整个对象标注过程有五个标注者参与。
⑶实例/对象级显著物体标注
让20个标注者经过10个视频示例预训练后,从每个待标注的视频帧中选择出最多5个对象并细致地标注它们。
标注者还被要求区分出不同的实例并且单独进行标注,从而得到23,938帧对象级显著性标注和39,498个实例级显著性标注。
⑷视频文本描述生成
让一位标注者在观看完整个视频序列之后给视频赋予一句简短的描述(不超过15词)来概括其主要内容。受试者在观看的同时,会提供相应的对象和视频标签以供参考。
这样的标注将有利于各种潜在的应用,例如基于显著性的视频字幕生成。
数据集的特点与统计为了深入了解DAVSOD数据集,几项重要特征如下:
- 丰富多样的显著对象;
- 显著对象实例的数量;
- 显著对象的尺寸;
- 多样化的相机运动模式;
- 不同的对象运动模式;
- 中心偏向。
SSAV模型:高度模拟人类视觉注意力转移行为
团队所提出的SSAV模型由两个基本模块构成:金字塔扩张卷积模块(PDC)和显著性转移感知模块(SSLSTM)。
- PDC用于鲁棒地学习静态显著性特征;
- SSLSTM将传统的长短时卷积网络(convLSTM)与显著性转移感知注意(SSAA)机制相结合。
SSAV模型将经由PDC模块得到的静态特征序列作为输入,同时考虑时序变化和显著性转移,从而得到相应的VSOD结果。
SSAV模型与FGRNE(CVPR 18)输出结果比较
值得一提的是,该模型中的6个数据集(共8个),在实验结果性能方面达到了当前最优水平,可谓是一个模型“横扫天下”!
评测结果
表1 17个最先进的VSOD模型在7个数据集上的评测结果
传统模型的性能
根据表1,可以得到的结论是:“SFLR、SGSP和STBP是VSOD中非深度学习模型的前3名。”
SFLR和SGSP都显式地考虑光流策略来提取运动特征。但计算成本通常很高。
深度模型的性能
评测中前三名的模型(即SSAV、PDBM、MBNM)都基于深度学习技术,这表明神经网络具有强大的学习能力。
在ViSal数据集上,它们的平均性能(max F)甚至高于9.0。
传统与深度VSOD模型的比较
从表1可见,几乎所有深度模型都优于传统算法。经典方法中最好的模型在MCL、UVSD、ViSal及DAVSOD数据集上的性能比某些深度模型,如SCOM的性能更好。
说明在深度学习框架中研究如何有效利用人的先验知识是很有前景的方向。
工作意义
本文的工作,不仅使得AI的注意力转移机制更加逼近人类,并且会在视频分割、视频字幕生成、视频压缩、自动驾驶、人机互动等场景或领域中,带来较大的推进作用。在学术和实际应用两方面都具有较高的价值。
工作成果链接:
http://dpfan.net/publications/
,免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com