听、看、回答：克服音频视觉问题回答中的偏差

Apr, 2024

听、看、回答：克服音频视觉问题回答中的偏差

Look, Listen, and Answer: Overcoming Biases for Audio-Visual Question Answering

Jie Ma, Min Hu, Pinghui Wang, Wangchun Sun, Lingyun Song...

TL;DR音频 - 视觉问答（AVQA）是一个复杂的多模态推理任务，要求智能系统基于音频 - 视频输入对准确地回答自然语言查询。然而，现有的 AVQA 方法容易过度学习数据集偏差，导致鲁棒性差。我们提出了一个新的数据集（MUSIC-AVQA-R），并提出了一个鲁棒的架构，通过多方位的循环协作去偏策略来克服偏差学习问题。结果表明，该架构在两个数据集上均取得了最先进的性能，特别是在我们提出的数据集上提升了 9.68％。通过对我们的数据集进行评估，还突显了现有的多模态 QA 方法的有限鲁棒性。

Abstract

audio-visual question answering (AVQA) is a complex multi-modal reasoning task, demanding intelligent systems to accurately respond to natural language queries based on audio-video input pairs. Nevertheless, prevalent AVQA approaches are prone to overlearning →

audio-visual question answering dataset biases music-avqa-r robust architecture multi-modal qa methods

发现论文，激发创造

解决 MUSIC-AVQA 中的数据偏见：构建一个平衡的数据集用于无偏见的问答

该研究关注多模态研究中的音频、视觉和文本模式的交叉，通过对原数据集中带有显著答案偏见的问题类型的梳理，构建了一个名为 MUSIC-AVQA v2.0 的新数据集，并提出了一种新型基线模型，通过研究音频 - 视觉 - 文本相互关系，在 MUSIC-AVQA v2.0 上的准确性超过了现有的基准，达到了新的最先进水平。

Oct, 2023

在动态音视频场景中学习回答问题

本文研究了 Audio-Visual Question Answering（AVQA）任务，提出了一个包含超过 45K 个问题 - 答案对的 MUSIC-AVQA 数据集并使用多模态知识和视听场景的时空推理来解决该问题，结果表明我们的方法优于现有的 A-V 和 AVQA 方法。

Mar, 2022

面向对象感知的自适应正性学习用于音频 - 视觉问答

基于音频 - 视觉问题回答任务（AVQA），本文提出了一种针对细粒度视觉对象的端到端对象导向网络，通过特征交互和模型优化来探索多模态关系，并在模型优化方面提出了一种对象感知自适应正性学习策略，以选择高度语义匹配的多模态对作为正性。通过对 MUSIC-AVQA 数据集进行的大量实验证明，该方法能够有效地找到有利的音频 - 视觉线索，并取得了新的最先进的问题回答性能。

Dec, 2023

强健的视觉问答：数据集，方法和未来挑战

视觉问答研究需要系统能够根据图像和自然语言问题提供准确的自然语言答案。然而，先前的通用 VQA 方法普遍存在记忆训练数据中的偏见而不是学习正确行为（如在预测答案之前进行图像建立联系）。因此，这些方法通常在分布内获得高性能但在分布外获得低性能。最近几年，已经提出了各种数据集和去偏见方法来评估和增强 VQA 的稳健性。本文提供了关于这一新兴领域的首个综述，重点讨论视觉问答中的这些问题。具体来说，首先概述了数据集的发展过程，从分布内和分布外的角度进行了分析。然后，研究了这些数据集使用的评估指标。第三，提出了一种类型学，介绍了现有去偏见方法的发展过程、相似之处与差异、稳健性比较和技术特征。此外，分析和讨论了 VQA 中代表性视觉与语言预训练模型的稳健性。最后，通过对现有文献的彻底审查和实验分析，从各个角度探讨了未来研究的关键领域。

Jul, 2023

面向多语言音视频问答

本文旨在将音视频问答（AVQA）扩展到多语言环境。我们利用机器翻译提出了两个多语言 AVQA 数据集，涵盖了八种语言，并引入了 MERA 框架，该框架利用了先进的视频、音频和文本基础模型来进行多语言 AVQA 的基准测试。我们相信这项工作将开辟新的研究方向，并为未来的多语言 AVQA 提供参考基准。

Jun, 2024

通过对抗训练克服遥感视觉问答中的语言偏见

本研究提出了一种新的框架来减少 Visual Question Answering 系统中的语言偏差，具体地，在原 VQA 框架中添加了对抗分支和两个正则化器以限制训练过程中的语言偏差，并提出了一种新的性能度量方法来评估语言偏差，实验结果表明该方法简单有效。

Jun, 2023

通过附带关键音频 - 视觉线索的文本回答多样化问题

音视频问答（AVQA）需要参考视频内容和听觉信息，然后将问题相关联以预测最精确的答案。本文提出了一种进行互相关蒸馏（MCD）的框架，以帮助问题推理。通过增强音视频软关联、知识蒸馏和解耦音视频依赖等步骤，我们的方法在多个问答数据集上展现出优于其他方法的表现，有趣的发现是，在推理过程中去除深度音视频特征可以有效减轻过拟合问题。

Mar, 2024

视觉问答：方法与数据集综述

本文针对视觉问答任务进行综述，比较传统的视觉元素和常识知识融合的方法。并对数据集进行了评估，结合 Visual Genome 数据集中的图像结构注释研究了不同复杂度的问答对。最后讨论了未来发展方向，重点关注结构化知识库和自然语言处理模型的连接。

Jul, 2016

面向动态音视情境的目标感知时空推理问题回答

本研究提出了一种针对音视频问答（AVQA）任务的目标感知联合时空基础网络，利用三种模态的一致性损失实现了问题感知的时空基础，增加了音频 - 视觉互动，采用了单一流结构中的融合方法，在 MUSIC-AVQA 数据集上的实验结果证明了该方法优越性及其有效性。

May, 2023

超越基于问题偏见：对多模态快捷学习在视觉问答中的评估

本文介绍了一个用于诊断视觉问答（VQA）模型中快速学习情况的评估方法，并提出了考虑问题和图片的多模态快捷方式问题。通过挖掘诸如词语和视觉元素的共现等规律等方法，首先在流行的 VQA v2 训练集中确定了可能的快速方式，然后引入基于我们的 CounterExamples 子集的 VQA-CounterExamples（VQA-CE）评估协议进行了大规模研究，发现即使是最先进的模型也难以处理这个复杂的问题。

Apr, 2021