KDDJun, 2018

在视觉问答中识别反例

TL;DR该研究引入了一个新的视觉问答任务,即识别对原问题产生不同回答的图像,并通过这一任务来评估现有的 VQA 模型。尽管作者的模型在这一任务上表现出色,但研究结果表明,现有的最先进 VQA 模型所学习的多模态表示对于这一任务的表现并没有显著贡献,这表明在 VQA 基准测试上表现良好并不意味着具备更广泛的视觉语义推理能力。