Apr, 2021
超越基于问题偏见:对多模态快捷学习在视觉问答中的评估
Beyond Question-Based Biases: Assessing Multimodal Shortcut Learning in
Visual Question Answering
TL;DR本文介绍了一个用于诊断视觉问答(VQA)模型中快速学习情况的评估方法,并提出了考虑问题和图片的多模态快捷方式问题。通过挖掘诸如词语和视觉元素的共现等规律等方法,首先在流行的VQA v2训练集中确定了可能的快速方式,然后引入基于我们的CounterExamples子集的VQA-CounterExamples(VQA-CE)评估协议进行了大规模研究,发现即使是最先进的模型也难以处理这个复杂的问题。