Apr, 2022

SwapMix: 检测和规范视觉问答中过度依赖视觉上下文

TL;DR通过一种名为 SwapMix 的简单有效的扰动技术,我们发现可代表性 VQA 模型的问题答案可以被改变超过 45%。此外,我们还发现模型的上下文依赖性高度取决于视觉表征的质量,并且 SwapMix 可以作为数据增强策略应用于训练中以调整上下文依赖性。