Jun, 2018

在视觉问答中识别反例

TL;DR该研究引入了一个新的视觉问答任务,即识别对原问题产生不同回答的图像,并通过这一任务来评估现有的VQA模型。尽管作者的模型在这一任务上表现出色,但研究结果表明,现有的最先进VQA模型所学习的多模态表示对于这一任务的表现并没有显著贡献,这表明在VQA基准测试上表现良好并不意味着具备更广泛的视觉语义推理能力。