机器视觉跟计算机视觉有哪些区别(超精细视觉识别)

​文 / 梅涛

摘 要

图像识别是人工智能领域的一个重要分支,在特定学术基准数据集上(如ImageNet)的性能甚至已超过人类水平,但由学术驱动向应用转化的过程中,图像识别仍面临着3S挑战——空间超精细(Space,目标小看不清)、类数超精细(Scale,种类多看不全)和语义超精细(Semantics,语义少看不懂),上述挑战催生出下一代计算机视觉新的研究方向——超精细视觉识别。本文首先介绍面向细微目标、全域物体、丰富语义的超精细图像识别技术及其广泛的应用场景、代表性方法,然后阐述了未来超精细视觉面临的挑战。

关键词

超精细视觉;图像分类;图像解析;图像理解

0 引言

计算机视觉技术经历了60多年的不断突破创新后,已经发展成为了推动社会进步,以及新一轮科技和产业革命的重要驱动力量,对经济和社会发展均产生了深远的影响。尤其是近年来,计算机视觉技术相关的创新创业如雨后春笋,包括人脸识别、智慧安防、自动驾驶等技术方向的相关产业化生态的发展已经较为完备,这类技术的革新应用切实改变了人类生产生活的方式,产生了积极深远的社会影响。

图像识别作为计算机视觉技术的核心,是催生出各类相关应用的重要技术基础。图像识别技术主要包含图像解析、图像分类和图像语义理解等几个方向。图像识别技术与国家战略、经济息息相关。我国密集出台的多项国家政策、发展报告和市场研报中,多次体现了图像识别的战略意义和经济价值。2017年的国务院《新一代人工智能发展规划》中指出,要发展以图形图像为核心的认知计算方法。此外,2021年的全球图像识别市场研报中展示,预计到2030年图像识别技术将达到千亿美元市值。

回顾图像识别技术的发展历程,大致可以将其分为两个主要阶段。

● 20世纪90年代的特定图像识别阶段,主要研究特定领域的物体识别(如手写数字、邮政编码),大多采用手工特征与浅层学习的方式;

● 21世纪10年代,伴随着深度学习技术在通用图像识别领域的突破性进展,人们对图像识别技术的关注点转向常见物体与通用场景,通过端到端的深度特征学习提升图像识别的泛化力。

然而,上述两个阶段中人工智能(AI)的落地应用场景相对有限,而在实际场景的图像识别通常面临着细微目标、海量类别、复杂语义环境的挑战。这就要求新一代图像识别技术能够做到“精”“全”“懂”。例如,智能制造的工业品质检问题,往往需要识别放大百倍才能看清的细微缺陷、精确定位和检测瑕疵缺陷等,需要图像识别技术能够对图像中的微小区域进行“精”解析;在线购物网站有超十亿种不同的商品类别,其中可乐就有几百种,每种差异非常小,要分类、检索每一类商品图像,要求图像识别技术需要具备超大规模类别的“全”分类能力;服务型机器人通过摄像头捕捉到真实场景的图像,需要对真实场景中的人-物-场三者之间的复杂语义关系看“懂”理解后才能达到精准的人机交互。上述挑战催生出了新一代图像识别技术,即21世纪10年代的超精细图像识别,专注于大幅扩充的类别数量,以及超小细节区域带来的新挑战,研究重点也转变为全域物体、超细微差异和精细化语义理解的图像识别。

从类别数目、空间尺寸和语义丰富度三个维度可以看到,超精细图像识别主要研究面向10万至百万类别类目、约百分之一甚至更小的感兴趣区域占比,以及复杂场景全面语义的新一代图像识别技术(见图1)。

机器视觉跟计算机视觉有哪些区别(超精细视觉识别)(1)

图1 图像识别技术发展的三个阶段

总的来说,超精细图像识别技术可以被概括为是一种面向细微目标 (Space)、全域物体 (Scale) 和丰富语义 (Semantics) 的图像识别技术。

1 超精细视觉应用

图像识别技术在我国传统行业中的发展和应用仍然处于有限水平,无法满足传统行业数字化和智于大幅扩充的类别数量,以及超小细节区域带来的新挑战,研究重点也转变为全域物体、超细微差异和精细化语义理解的图像识别。从类别数目、空间尺寸和语义丰富度三个维度可以看到,超精细图像识别主要研究面向10万至百万类别类目、约百分之一甚至更小的感兴趣区域占比,以及复杂场景全面语义的新一代图像识别技术(见图1)。能化升级的需求。要实现相关产业高质量发展,就要发挥图像识别技术在产业升级、产品研发、服务创新等方面的技术优势,推动技术与实体经济深度融合。在这种背景下,面向超大规模物体类别,具备高精度/高分辨力的图像特征,以及可推理的图像语义描述的超精细图像识别技术正在受到越来越多的关注。具体而言,如图2所示,超精细视觉技术在医疗、制造、零售、制造、航空航天和农业等方面的应用价值和意义主要体现在以下五个方面。

机器视觉跟计算机视觉有哪些区别(超精细视觉识别)(2)

图2 超精细视觉技术的若干代表性应用

(1)面向医疗健康的应用。“AI 医疗”领域最为重要的的两个应用方向为AI医学影像和AI辅助制药。其中AI医学影像分析则是目前接受度最高的场景,即使用图像识别技术将医疗影像中的病灶、异常区域进行自动检测定位识别。具体地,病灶区域的解析需要做到毫米级精度,而毛细血管的解析甚至需要做到微米级精度。超精细视觉技术可以大大提升医疗诊断的自动化和精细程度,助力普惠医疗的发展有助于全社会医疗水平与服务的提升。

(2)面向制造产业的应用。近十年来,制造业下游对于产品检测、智能化的要求不断提高,推动机器视觉技术在工业领域的应用日趋广泛。超精细图像识别技术在工业产品外观缺陷检测中的普及和应用,成为人工智能技术与制造业深度结合的突破口。其中,超精细视觉检测与高精视觉定位产品需求增长明显。例如,在电子产品外观、机械零部件的缺陷检测中,要求缺陷成像范围在小于10个像素的情况下误差达到微米级。超精细视觉技术在未来智能制造业中将作为一项基础技术能力,为工业设计、生产和质检领域解放生产力发挥重要作用。

(3)面向零售场景的应用。人工智能的快速发展赋能了零售行业,有效重构了零售行业“人、货、场”等要素,提升了各环节效率,最终提升消费者购物体验,推动零售行业迎来变革。其中,便捷且个性化的用户购物体验是用户自身最为关切的一点,用户需要能快速找到他们想要的东西,并快速结账、退款等,这就要求机器可以自动识别和检索高达亿级规模的商品类目。超精细的图像识别与理解技术能够实现快速、精准的商品感知、搜索与推荐,切实提升了用户的使用体验,刺激相应的购买需求。

(4)面向航空航天等高精尖领域的应用。航空航天工业是较为前沿的尖端技术领域,其中很多涉及复杂的逻辑推理和众多的约束条件的任务都需要通过采用人工智能系统加以解决。例如,在卫星遥感图像中定位地面目标一般要求在1:N万比例尺的情况下将待识别物体的定位误差控制在0.5~1像素;在太空环境下,飞行器实现高速运动情况下的对接,机械臂在保证视觉测量精度基础上实现精确目标抓取等,这些需求都离不开超精细视觉技术的支持。

(5)面向农业生产的应用。2020年我国农业生产总值已经达到了16万亿元,占GDP的16.47%,但全国农作物病虫害发生45亿亩。我国虽然有着辽阔的农业耕种面积,但是与之对应的农学植保专家不足5万人次,因此引入人工智能技术辅助病虫害治理、农作物分析就显得尤为重要。为了涵盖复杂多样的耕种环境、季节气候和农作物品类,人工智能图像识别系统往往被要求对百万级的植物、万级的虫害进行分类和检测,这正属于超精细的图像识别技术的领域范畴。

类似的,还有诸如人工智能辅助内容生成等其他方面的应用,在此不一一列举。不难看出,超精细视觉技术已经逐渐走入人类生活和社会生产的方方面面,未来也将发挥愈来愈重要的作用。

2 超精细视觉挑战

为了推动超精细图像识别相关技术在各类场景下的规模化应用,实现高性能、高鲁棒、可推理的超精细图像识别与理解,让机器更加精细地看懂世界这一目标,亟需针对超精细图像识别技术时所面临的难题,开展一系列技术研究和困难攻关。具体而言,超精细图像识别面临以下三个技术难点。

(1)细微目标难检测。图像理解和分析提高了零售、工业制造等场景中的自动化程度。与一般的图像识别相比,图像精细解析作为高层级、精细化的图像信息提取和融合技术,具有更广泛的应用前景。然而在真实复杂场景下,图像精细解析模型面临细微目标难检测的问题。为了解决图像精细解析模型在真实场景中的应用困境,亟需开展突破图像精细解析过程中细微目标检测的相关技术研究,实现高性能的图像精细解析。

(2)全域类别难区分。不同于传统通用图像识别,细粒度图像识别要求对图像中的视觉细节特征加以表示和区分,常常被应用于替代人类专家完成各种垂直领域的图像细分类工作,因此也被认为具有较高的实用和商用价值。但是,受限于一般精细图像识别技术对细粒度判别信息的表征能力有限、可支持标签数量较少,且对图像风格敏感等问题,无法将其直接应用于实际大规模全域场景下的图像识别任务。因此,具有高分辨力、高鲁棒性的图像特征的学习成为了目前该领域研究工作的重点。

(3)精细语义难表达。真实场景下图像精细语义结构复杂,难以表达。而且针对图像语义描述,图像和描述文本这两种不同模态之间的高层语义信息也很难对齐。此外,受限于封闭环境下的训练,图像语义描述模型很难对开放环境下的新物体进行描述。为了解决这些在真实场景应用时面临的问题,可推理的图像语义描述成为了当前研究的关键。

3 超精细视觉技术

与超精细图像识别中的“目标难检测”“类别难区分”和“语义难表达”三大技术挑战相对应三项关键技术,可以被总结为超精细图像解析(看得细)、超精细图像分类(看得全)和超精细图像语义描述(看得懂)。

3.1 超精细图像解析

现有图像的精细解析数据标注困难,真实场景中高分辨率图像解析推理速度慢,导致在真实场景中图像解析模型应用受限。为了解决上述问题,研究人员大多从三个不同方向开展相应的研究工作,包括:针对图像精细解析标注成本高昂导致的训练数据少的问题,提出自监督方式学习图像特征,增强特征表达能力进而提高精细解析的精度;针对精细解析依赖高分辨率图像导致推理速度慢的问题,提出带约束的高效网络结构设计,保证图像精细解析准确率的同时减少推理时间;针对精细解析模型在数据分布变化时出现的精度下降,提出细粒度类别对齐以提高模型泛化性,实现各种数据分布下的高精度解析。

此外,考虑到收集大量密集标注的训练数据通常是一项劳动密集型任务,计算机图形学的最新进展为替代昂贵的人工标注提供了新的替代解决方案:即通过基于物理、计算机图形学的渲染,可以低成本地获得具有像素级标注的照片般逼真的图像。然而,当使用合成数据(源域)训练的模型应用于现实场景(目标域)时,会观察到性能下降,因为来自不同域的数据通常具有不同的分布。这种现象被称为域转移问题,它对跨域任务提出了新的挑战。所以,超精细图像解析结合领域自适应方法也正在受到愈来愈多的关注。

3.2 超精细图像分类

超精细图像分类任务的难点在于需要让模型认的“全”,体现在可以识别和分类的物体种类数量庞大,对应两项关键技术的研究,即对于不同类别物体之间精细粒度视觉差异的检测,以及对于高相似度精细图像特征的学习。

对于精细粒度视觉差异的检测主要集中在细粒度图像分类任务的研究上。目前针对细粒度图像分类任务应用最广的技术框架主要分为下面三种。①依赖目标检测模型从图像中提取主体轮廓与背景信息进行区分,然后再基于目标主体图像特征对图像进行分类的两步运算方法;②基于注意力模型的系统,依靠大量额外参数来学习注意力得分,从而在图像中对目标物体主体与背景进行区分;③基于自监督任务的判别性特征/物体结构特征学习方法,该方法比于另外两种方法无需目标框图标注也无需大量额外的运算,体现在效率和效果都可以达到更优。

高相似度精细图像特征的度量学习对于相似图像检索、开放域图像分类等都是至关重要的。然而,在实际应用场景下,当测试时的数据分布与训练数据集差异较大,或者测试样本属于(开放域)以前未见过的类别时,亦或者是当每个类只有少量训练样本的情况下,往往会导致非常严重的过拟合问题,影响模型的泛化性。为此,通过整合引入诸如概率密度等额外约束到特征度量学习,或者围绕多源数据加开放域进行视觉特征迁移学习,最大化利用嵌入空间的表达能力,提升精细粒度特征的表征能力,对于提升超精细图像分类和检索任务上的性能表现就变得尤为重要。

3.3 超精细图像理解

由于真实场景下图像本身语义结构复杂,图像精细语义难表达,图像和文本不同模态间语义难对齐,而且受限于封闭环境下的训练,图像描述生成模型很难对开放环境下的新物体进行描述。针对上述问题的研究工作主要围绕语义结构指导的图像理解,跨模态交互的图像语义描述,以及知识融合的开放环境图像语义表征这三方面展开。

首先,针对真实场景下图像精细语义难表达的问题,研究人员提出物体间丰富语义结构(图结构、树形结构)指导的图像语义描述生成,提高对于图像中语义理解的丰富度和准确性。通过层级化的方式加强模型对图像结构的视觉解释,并且利用这种语义结构拓扑去整合图像级、区域级和实例级特征的学习,最终完成从图像中物体间多层次的语义树形结构到对应图像语义、推理信息等的转换。

此外,针对图像-文本不同模态间语义难以对齐的问题,一般可以通过注意力机制完成在多模态特征关联框架中不同模态间的特征交互。注意力机制综合文本特征,以及编码后的图像区域特征,赋予跨模态交叉匹配不同的注意力权重来实现对应特征聚合,从而增强图像和描述文本的语义一致性。

最后,对于开放场景下图像描述难以泛化的问题,可以通过知识融合的开放环境图像语义描述模型,将图像文本知识库的信息融入图像描述生成模型中,实现对开放场景下新物体的理解和描述。

3.4 超精细视觉数据集

为了促进超精细视觉领域的技术持续发展,以及吸引更多的研究人员参与到该项研究课题,近年来有不少相关的数据集和比赛被提出。例如,2016年斯坦福大学公布的Visual Genome数据集将结构化的视觉信息与语言信息结合起来,涵盖了230万常见的语义关系和540万图像描述标注。FAIR在2019年开放了LVIS(large vocabulary instance segmentation)数据集,这是一个大规模细粒度词汇集标记数据集,该数据集针对超过1000类物体进行了约200万个高质量的实例分割标注。2020年开源的AI-TOD(tiny object detection in aerial images)航拍数据集中包含70万个实例对象,目标的平均大小只有12.8像素。京东人工智能研究院在2019年开源了截止目前业界最大规模的有标注商品图像数据集Product-10K,包含1万多类常见的商品类目;在2022年开源了YOVO-10M数据集,该数据集包含1000万视频片段和与之对应的文本描述标签。依托这些超精细视觉数据集,在各大学术会议和论坛上均有相关比赛举办,吸引了大量的机器学习、计算机视觉领域的专家参赛,极大地促进了该领域的技术进步和发展。

4 超精细视觉未来展望

超精细图像识别技术服务方向目前已经涵盖了智能手机、自动驾驶、医疗保健、安防等多个领域。但是目前在这些领域的应用主要依托超精细图像解析、分类和理解中的一至两项核心技术。在未来,服务型机器人和通用人工智能将依赖这三项超精细视觉技术的同时支持,为该研究方向带来新的重大挑战和机遇。目前市面上发布的机器人功能还比较单一,要真正做到开放场景下的机器人实际使用,需要机器人可以准确理解人-物-场语义关系,精确定位目标物体,同时具备全域物体识别能力。而通用人工智能的发展目前还较为初期,虽然已经有了类似BERT、DALL-E、ChatGPT这类大模型被陆续推出,但是对于跨模态超精细的内容理解与生成任然处于起步阶段。

我们相信未来随着超精细视觉技术的不断发展,人工智能逐渐完备视觉认知功能,可以切实提升人类生产效率,提升社会福利和人民生活水平。

(参考文献略)

机器视觉跟计算机视觉有哪些区别(超精细视觉识别)(3)

选自《中国人工智能学会通讯》

2023年第13卷第1期

特约专栏​​​​

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页