A number of studies have found that today's visual question answering (vqa) models are heavily driven by superficial correlations in the training data and lack sufficient →
本文提出了一种基于二元分类的简单替代模型来解决视觉问答中的一些问题,并通过在Visual7W Telling和VQA Real Multiple Choice任务上的实验表明该模型的简单版本同样具有竞争力,同时,作者发现现有的视觉问答系统性能的瓶颈可能在于其对问题及答案中基础概念的不足认知,其表现相对于充分利用数据集偏见的系统并没有显著提升。