Dec, 2016

在视觉问答中提升图像理解的作用:让 VQA 中的 V 更有意义

TL;DR该研究通过收集相关的图像,用于构建一个平衡的数据集(VQA v2.0),并在此基础上比较现有的 VQA 模型的表现,发现这些模型都受到了语言先验的影响。此外,该研究还提出了一种可解释性模型,它不仅可以回答问题,而且还可以通过提供一个相似但不同的图像来提高用户对其信任度。