Mar, 2020
为强健视觉问答生成反事实样本
Counterfactual Samples Synthesizing for Robust Visual Question Answering
TL;DR本研究提出一种针对视觉问答(VQA)模型的计数样本合成(CSS)训练方案,该方案通过掩盖图像中的关键对象或问题中的关键词并赋予不同的答案来生成大量反事实训练样本,从而提高模型的视觉可解释性和问题敏感性,进而提高模型性能。在模型LMH的基础上,我们在VQA-CP v2上取得了58.95%的最高记录,增益为6.5%。