Transformer 能否捕获物体之间的空间关系？

ICLRMar, 2024

Transformer 能否捕获物体之间的空间关系？

Can Transformers Capture Spatial Relations between Objects?

Chuan Wen, Dinesh Jayaraman, Yang Gao

TL;DR当前计算机视觉系统在识别实物基础空间关系方面的性能较差，通过提出了精确的关系定义以允许对基准数据集进行一致的标注，并利用 Transformer 模型的长程注意力能力对这一任务提出新的方法进行评估。我们提出了一种名为 “RelatiViT” 的简单架构，并证明其胜过所有当前方法，这是第一种在实际场景中令人信服地优于朴素基准的空间关系预测方法。

Abstract

spatial relationships between objects represent key scene information for humans to understand and interact with the world. To study the capability of current computer vision systems to →

spatial relationships computer vision systems recognize benchmark dataset transformers

发现论文，激发创造

通过捕获物体间的关系提升航空图像中的检测能力

基于 transformer 的方法在三个基准测试中表现出一致的性能提升，特别是在 DOTA-v1.5 和 HRSC 2016 上名列前茅，相对于基线方法分别增加了 1.59 mAP 在 DOTA-v1.0、4.88 mAP 在 DOTA-v1.5 和 2.1 mAP 在 HRSC 2016。

Apr, 2024

图像字幕生成：物体到文字的转换

本文介绍了一种名为 “Object Relation Transformer” 的图像描述模型，该模型在编码器 - 解码器架构中显式地整合了有关输入检测对象的空间关系，以几何关注的方式建模。结果表明，这种几何关注对图像描述非常重要，并在 MS-COCO 数据集上的各种标准评估指标上均有改进。

Jun, 2019

文本到图像生成中的空间关系基准测试

本文研究基于大规模文本到图像合成 (T2I)，研究其中的空间理解能力，并提出了一个评估指标 VISOR，并引入一个大规模的数据集 SR2D 以及自动化评估管道，对 T2I 模型进行了大规模实验，发现其在多对象和空间关系生成方面存在严重限制和偏差，并提供了数据集和评估指标以支持 T2I 空间推理研究。

Dec, 2022

关于少样本动作识别中空间关系的重要性

通过整合空间关系和时间信息，本文提出了一种新型的少样本动作识别方法 Spatial Alignment Cross Transformer (SA-CT)，并利用预训练模型进一步提升性能。

Aug, 2023

超越卷积的优化：利用端到端度量学习推广空间关系

本文提出了一种基于距离度量学习的端到端方法来推广空间关系，通过训练神经网络将对象的 3D 点云转换为捕捉所述空间关系相似性的度量空间，使用梯度优化来计算物体姿态来模仿任意目标关系，实验结果表明该方法使机器人能够在未知对象上推广空间关系。

Jul, 2017

基于度量学习的空间关系推广到新对象

该论文介绍了使用距离度量学习的新方法来解决自主机器人在富含各种空间关系的人类中心环境中的空间关系学习问题，从而使其能够以灵活的方式学习任意的关系并进行泛化，这在非专家用户的辅助下以一个小数量的例子交互式地完成。

Mar, 2017

RelViT: 用于视觉关系推理的概念引导视觉 Transformer

本文利用视觉转换器 (ViTs) 作为我们视觉推理的基本模型，通过优化定义为物体实体及其关系概念，推动 ViTs 的推理能力，并介绍了一种新的概念特征字典，以促进全局关系推理和促进语义对象特定一一对应关系学习的局部任务。结果显示，我们的模型 Concept-guided Vision Transformer（或 RelViT）在 HICO 和 GQA 上的性能均优于先前的方法，并充分考虑了 ViT 变体和超参数的稳健性。

Apr, 2022

关系变换网络

该论文提出了一种新颖的 transformer 模型，用于场景图生成和关系预测，利用编码器 - 解码器架构和节点和边的丰富特征嵌入，通过自我注意力和交叉注意力模拟节点之间和边与节点之间的交互，并引入适用于处理解码器中的边的新的位置嵌入。

Apr, 2020

具有韧性和可解释性的关系网络空间参考基础

本论文提出一种文本条件化的关系网络模型，通过跨模态的注意力机制动态计算参数以捕获实体之间的精细空间关系，从而实现对文本中空间参照的理解，具有可解释性和鲁棒性，在三个任务中实现了 17% 和 15% 的表现改进，从而解决了在自主导航和机器人控制中学习空间概念表示的关键挑战。

May, 2020

基于 Transformer 双关系图的多标签图像识别

本文提出了基于 Transformer 双重关系学习框架的方法，通过构建结构关系图和语义关系图，利用显式的语义感知约束来动态地建模图像对象的语义含义，并将学习到的结构关系合并到语义图中，为多对象识别任务提供了一种新的方法。

Oct, 2021