ICLRMar, 2024

Transformer 能否捕获物体之间的空间关系?

TL;DR当前计算机视觉系统在识别实物基础空间关系方面的性能较差,通过提出了精确的关系定义以允许对基准数据集进行一致的标注,并利用 Transformer 模型的长程注意力能力对这一任务提出新的方法进行评估。我们提出了一种名为 “RelatiViT” 的简单架构,并证明其胜过所有当前方法,这是第一种在实际场景中令人信服地优于朴素基准的空间关系预测方法。