can的工作原理和特点（iCAN以人为中心的人-物）

我比貂蝉美 2023-03-25 15:54:22

选自arXiv，作者：Chen Gao、Yuliang Zou、Jia-Bin Huang，机器之心编译，参与：乾树、张倩。

视觉识别近年来发展迅速，包括物体检测、分割和动作识别。但是，理解场景不仅需要检测单个物体实例，还需要识别物体对之间的视觉关系，其中尤为重要的一环是检测并识别每个人如何与周围物体交互，即人-物交互（HOI）检测。本文提出了一种以实例为中心的端到端可训练注意力网络——iCAN，学习使用人或物体实例的外观来突出信息区域。该网络在COCO 和 HICO-DET两个HOI 基准数据集上取得了新的当前最佳性能。

图 1：人 - 物体交互检测。给定输入图像（左）和图像中检测到的对象实例（中），利用本文提出的模型检测并识别每个人之间的交互以及与他们交互的物体（右）。

引言

在过去几年里，视觉识别任务飞速发展，包括物体检测 [8,10,27,34]、分割 [5,11,18,28] 和动作识别 [6,9,13,30,41]。但是，理解场景不仅需要检测单个物体实例，还需要识别物体对之间的视觉关系。视觉关系检测中尤为重要的一环是检测并识别每个人如何与周围物体交互。

该任务称为人-物交互（HOI）检测 [4,14,15,16]，旨在定位人、物体并识别人与物体之间的交互。图 1 中展示了 HOI 检测问题的一个例子。给定输入图像和物体检测器检测到的实例，研究者的目标是识别出所有的“人-动词-物体”三元关系组。

为何是 HOI？检测和识别 HOI 是朝着更深入理解场景迈出的重要一步。而不是“哪里有什么？”（即，在图像中定位物体实例），HOI 检测的目标是回答“发生了什么？”的问题。研究 HOI 检测问题也为其他相关的高级视觉任务提供了重要线索，例如姿态估计 [2,40]，图像标注 [24,39] 和图像检索 [21]。

为何要注意力？受物体检测进步 [18,34]的推动，最近的一些工作致力于检测图像中的 HOI [4,14,16,35]。大多数现有方法使用人和物体的外观特征以及它们的空间关系来推断交互。除了仅使用人的外观特征之外，最近的动作识别算法还利用来自图像的语境线索。

如图 2 所示，编码语境的例子包括通过使用人类和物体边界框 [29] 的并集，提取人类姿势关键点周围的特征 [6]，或从整个图像中利用全局语境 [31] 来选择一个辅助框 [13]。虽然结合语境通常有助于提高性能，但这些手工设计的注意力区域可能并不总是与识别的动作/交互相关。

例如，加入人体姿势可能有助于识别“骑行”和“投掷”等行为，加入交互点可能有助于识别涉及手 - 物体交互行为，例如“用杯子喝水”和“用勺子吃饭”，加入背景可能有助于区分“用网球拍击中”和“用棒球棍击中”。为了解决这一局限，最近的工作利用端到端的可训练注意力模块进行动作识别 [9] 或图像分类 [20]。但是，这些方法是为图像级分类任务而设计的。

图 2：上下文特征示例。除了使用人和物体的边界框之外，从图像捕获语境线索的不同方式。

本文提出了一种以实例为中心的端到端可训练注意力模块，学习使用人或物体实例的外观来突出信息区域。直觉是，实例（人或物体）的外观暗示了我们应该注意图像中的哪些位置。

例如，为了更好地确定一个人是否拿有物体，应该将注意力集中在人手周围。另一方面，对于图像中的自行车，知道附近人的姿势有助于消除关于物体实例（例如，骑或推自行车）的潜在交互的歧义。本文提出的以实例为中心的注意力网络（iCAN）动态地为每个检测到的人或物体实例生成注意力映射，突出显示与该任务相关的区域。

研究者验证了该网络设计在 HOI 检测的两个大型公开基准测试中的性能：COCO 中的动词（V-COCO）[16] 和人类与常见物体的交互（HICO-DET）[4] 数据集。结果表明，研究者提出的 iCAN与现有的最佳方法相比具有一定的优势，比现有最佳算法在 V-COCO 上的性能相对提高约 10％，HICO-DET 约 49％。

本研究主要有以下四个贡献。

1. 引入了一个以实例为中心的注意力模块，它允许网络动态突出信息区域以改进 HOI 检测。

2. 在两个大型 HOI 基准数据集上取得了新的当前最佳性能。

3. 进行了详细的对比实验和误差分析，以确定各个组成部分的相对贡献，并量化不同类型的错误。

4. 发布了源代码和预训练模型，以促进将来的研究。

论文：iCAN: Instance-Centric Attention Network for Human-Object Interaction Detection

论文链接：https://arxiv.org/pdf/1808.10437v1.pdf

摘要：检测和识别单物体实例近年来取得了快速进展。然而，为了理解场景中的情况，计算机需要理解人类如何与周围物体交互。研究者在本文中解决了检测人-物交互（HOI）的困难任务。其核心思想是人或物体实例的外观包含指示线索，利用这些信息可以注意到图像中可以促进交互预测的部分。为了利用这些线索，研究者提出了一个以实例为中心的注意力模块，学习根据每个实例的外观动态突出显示图像中的区域。这种基于注意力的网络允许研究者选择性地聚合与识别 HOI相关的特征。研究者验证了网络在 COCO 和 HICO-DET 数据集中对动词的有效性，并表明本文的方法优于当前最佳方法。

实验结果

研究者评估了提出的 iCAN 模型的性能，并基于两个大型 HOI 基准数据集与当前最佳模型进行了比较。详细的类级别的性能和误差诊断等其他结果都可以在补充材料中找到。源代码和预训练的模型可在研究者的项目主页上找到。

表 1：在 V-COCO 测试集上与当前最佳模型的性能比较。

图 5：V-COCO 测试集上的 HOI 检测样本。研究者的模型在生活照中检测出各种形式的 HOI。模型检测到在不同情况下与人进行“骑”、“吃”、“躺”和“喝”交互的各种物体。

图 6：HICO-DET 测试集上的 HOI 检测样本。研究者的模型检测到对同一类别物体的不同类型的交互。

以实例为中心的注意力网络

图3：模型概述。研究者提出的模型包括以下三个主要流：（1）基于人类外观检测交互的人流; （2）基于物体外观预测交互的物体流;（3）用于编码人类和物体边界框之间的空间布局的配对流。基于现有的 Faster R-CNN 检测到的对象实例，使用所有的人 - 物体对生成 HOI 假设。然后融合来自各个流的动作分数以产生最终预测，如右图所示。

图 4：iCAN 模块。给定图像的卷积特征（以灰色显示）和人/物体边界框（以红色显示），iCAN 模块提取实例

（人类）或

（物体）的外观特征以及来自以实例为中心的注意力映射的特征。为了计算注意力映射，研究者使用 512 个通道的 bottleneck 来评估嵌入空间中的相似性 [37,38]。具体来说，研究者用 1×1 卷积和实例外观特征

将图像特征嵌入到全连接层中。这里的 res5 表示第五个残差块，GAP 表示全局平均池化层，FC 表示全连接层。
,