May, 2019
自我批判推理用于稳健的视觉问答
Self-Critical Reasoning for Robust Visual Question Answering
TL;DR该研究提出了自我批判的训练目标,通过确定人类视觉/文本解释或仅来自问题和答案中的重要单词的具有影响力的图像区域,确保正确答案的视觉解释与竞争答案候选者相比更匹配,以解决Visual Question Answering系统在训练数据上捕捉表面统计相关性的问题。应用于VQA-CP数据集,使用文本解释获得49.5%,使用自动注释区域获得48.5%,在VQA泛化任务中达到了最新的技术水平。