Apr, 2024

听、看、回答:克服音频视觉问题回答中的偏差

TL;DR音频 - 视觉问答(AVQA)是一个复杂的多模态推理任务,要求智能系统基于音频 - 视频输入对准确地回答自然语言查询。然而,现有的 AVQA 方法容易过度学习数据集偏差,导致鲁棒性差。我们提出了一个新的数据集(MUSIC-AVQA-R),并提出了一个鲁棒的架构,通过多方位的循环协作去偏策略来克服偏差学习问题。结果表明,该架构在两个数据集上均取得了最先进的性能,特别是在我们提出的数据集上提升了 9.68%。通过对我们的数据集进行评估,还突显了现有的多模态 QA 方法的有限鲁棒性。