ICLRApr, 2022

RelViT: 用于视觉关系推理的概念引导视觉 Transformer

TL;DR本文利用视觉转换器 (ViTs) 作为我们视觉推理的基本模型,通过优化定义为物体实体及其关系概念,推动 ViTs 的推理能力,并介绍了一种新的概念特征字典,以促进全局关系推理和促进语义对象特定一一对应关系学习的局部任务。结果显示,我们的模型 Concept-guided Vision Transformer(或 RelViT)在 HICO 和 GQA 上的性能均优于先前的方法,并充分考虑了 ViT 变体和超参数的稳健性。