Feb, 2024

CommVQA: 在交际语境中定位视觉问题回答

TL;DR当前的视觉问答(VQA)模型倾向于在孤立的图像 - 问题对上进行训练和评估。然而,人们提出的问题取决于他们的信息需求和对图像内容的先前知识。为了评估如何将图像置于自然语境中以形成视觉问题,我们引入了 CommVQA,这个 VQA 数据集包括图像、图像描述、可能出现图像的现实沟通场景(例如旅行网站),以及依赖于场景的后续问题和答案。我们发现,CommVQA 对当前模型构成了挑战。向 VQA 模型提供情境信息可以广泛提高性能,凸显了将系统置于沟通场景中的相关性。