Allan Jabri, Armand Joulin, Laurens van der Maaten
TL;DR本文提出了一种基于二元分类的简单替代模型来解决视觉问答中的一些问题,并通过在Visual7W Telling和VQA Real Multiple Choice任务上的实验表明该模型的简单版本同样具有竞争力,同时,作者发现现有的视觉问答系统性能的瓶颈可能在于其对问题及答案中基础概念的不足认知,其表现相对于充分利用数据集偏见的系统并没有显著提升。
Abstract
visual question answering (VQA) is an interesting learning setting for evaluating the abilities and shortcomings of current systems for image understanding. Many of the recently proposed VQA systems include atten