ICCVSep, 2021

视觉问答的弱监督相对空间推理

TL;DR这篇研究报告探讨了视觉和语言推理需要对视觉概念、语义和语言基础以及两种模式之间的相互作用进行感知,并评估了现有的 Vision-and-language 模型对于空间理解的忠实度。研究者提出了两个目标,利用现成的深度估计器,设计了关于三维空间推理的代理任务来训练 Vision-and-language 模型,使得在视觉问答挑战中取得了显著的表现改善。