Transformer 能否捕获物体之间的空间关系?
基于 transformer 的方法在三个基准测试中表现出一致的性能提升,特别是在 DOTA-v1.5 和 HRSC 2016 上名列前茅,相对于基线方法分别增加了 1.59 mAP 在 DOTA-v1.0、4.88 mAP 在 DOTA-v1.5 和 2.1 mAP 在 HRSC 2016。
Apr, 2024
本文介绍了一种名为 “Object Relation Transformer” 的图像描述模型,该模型在编码器 - 解码器架构中显式地整合了有关输入检测对象的空间关系,以几何关注的方式建模。结果表明,这种几何关注对图像描述非常重要,并在 MS-COCO 数据集上的各种标准评估指标上均有改进。
Jun, 2019
本文研究基于大规模文本到图像合成 (T2I),研究其中的空间理解能力,并提出了一个评估指标 VISOR,并引入一个大规模的数据集 SR2D 以及自动化评估管道,对 T2I 模型进行了大规模实验,发现其在多对象和空间关系生成方面存在严重限制和偏差,并提供了数据集和评估指标以支持 T2I 空间推理研究。
Dec, 2022
通过整合空间关系和时间信息,本文提出了一种新型的少样本动作识别方法 Spatial Alignment Cross Transformer (SA-CT),并利用预训练模型进一步提升性能。
Aug, 2023
本文提出了一种基于距离度量学习的端到端方法来推广空间关系,通过训练神经网络将对象的 3D 点云转换为捕捉所述空间关系相似性的度量空间,使用梯度优化来计算物体姿态来模仿任意目标关系,实验结果表明该方法使机器人能够在未知对象上推广空间关系。
Jul, 2017
该论文介绍了使用距离度量学习的新方法来解决自主机器人在富含各种空间关系的人类中心环境中的空间关系学习问题,从而使其能够以灵活的方式学习任意的关系并进行泛化,这在非专家用户的辅助下以一个小数量的例子交互式地完成。
Mar, 2017
本文利用视觉转换器 (ViTs) 作为我们视觉推理的基本模型,通过优化定义为物体实体及其关系概念,推动 ViTs 的推理能力,并介绍了一种新的概念特征字典,以促进全局关系推理和促进语义对象特定一一对应关系学习的局部任务。结果显示,我们的模型 Concept-guided Vision Transformer(或 RelViT)在 HICO 和 GQA 上的性能均优于先前的方法,并充分考虑了 ViT 变体和超参数的稳健性。
Apr, 2022
该论文提出了一种新颖的 transformer 模型,用于场景图生成和关系预测,利用编码器 - 解码器架构和节点和边的丰富特征嵌入,通过自我注意力和交叉注意力模拟节点之间和边与节点之间的交互,并引入适用于处理解码器中的边的新的位置嵌入。
Apr, 2020
本论文提出一种文本条件化的关系网络模型,通过跨模态的注意力机制动态计算参数以捕获实体之间的精细空间关系,从而实现对文本中空间参照的理解,具有可解释性和鲁棒性,在三个任务中实现了 17% 和 15% 的表现改进,从而解决了在自主导航和机器人控制中学习空间概念表示的关键挑战。
May, 2020
本文提出了基于 Transformer 双重关系学习框架的方法,通过构建结构关系图和语义关系图,利用显式的语义感知约束来动态地建模图像对象的语义含义,并将学习到的结构关系合并到语义图中,为多对象识别任务提供了一种新的方法。
Oct, 2021