CVPRMar, 2020

为强健视觉问答生成反事实样本

TL;DR本研究提出一种针对视觉问答(VQA)模型的计数样本合成(CSS)训练方案,该方案通过掩盖图像中的关键对象或问题中的关键词并赋予不同的答案来生成大量反事实训练样本,从而提高模型的视觉可解释性和问题敏感性,进而提高模型性能。在模型 LMH 的基础上,我们在 VQA-CP v2 上取得了 58.95%的最高记录,增益为 6.5%。