May, 2019

自我批判推理用于稳健的视觉问答

TL;DR该研究提出了自我批判的训练目标,通过确定人类视觉 / 文本解释或仅来自问题和答案中的重要单词的具有影响力的图像区域,确保正确答案的视觉解释与竞争答案候选者相比更匹配,以解决 Visual Question Answering 系统在训练数据上捕捉表面统计相关性的问题。应用于 VQA-CP 数据集,使用文本解释获得 49.5%,使用自动注释区域获得 48.5%,在 VQA 泛化任务中达到了最新的技术水平。