IJCAIDec, 2020

通过自监督学习克服语言先验的视觉问答

TL;DR本研究介绍了一种自监督学习框架来解决视觉问答模型中固有数据偏差问题。我们利用自动生成的标签数据来平衡数据偏差,提出一种自监督辅助任务来减少语言先验的影响,从而提高 VQA 模型的准确性,无需引入额外的可视化注释。实验结果表明,我们的方法在常用基准 VQA-CP v2 上将整体准确性从 49.50%提高到 57.59%,可以将基于注释的方法的性能提高 16%,而无需使用外部注释。