面向对象感知的自适应正性学习用于音频 - 视觉问答
本文研究了 Audio-Visual Question Answering(AVQA)任务,提出了一个包含超过 45K 个问题 - 答案对的 MUSIC-AVQA 数据集并使用多模态知识和视听场景的时空推理来解决该问题,结果表明我们的方法优于现有的 A-V 和 AVQA 方法。
Mar, 2022
音频 - 视觉问答(AVQA)是一个复杂的多模态推理任务,要求智能系统基于音频 - 视频输入对准确地回答自然语言查询。然而,现有的 AVQA 方法容易过度学习数据集偏差,导致鲁棒性差。我们提出了一个新的数据集(MUSIC-AVQA-R),并提出了一个鲁棒的架构,通过多方位的循环协作去偏策略来克服偏差学习问题。结果表明,该架构在两个数据集上均取得了最先进的性能,特别是在我们提出的数据集上提升了 9.68%。通过对我们的数据集进行评估,还突显了现有的多模态 QA 方法的有限鲁棒性。
Apr, 2024
音视频问答(AVQA)需要参考视频内容和听觉信息,然后将问题相关联以预测最精确的答案。本文提出了一种进行互相关蒸馏(MCD)的框架,以帮助问题推理。通过增强音视频软关联、知识蒸馏和解耦音视频依赖等步骤,我们的方法在多个问答数据集上展现出优于其他方法的表现,有趣的发现是,在推理过程中去除深度音视频特征可以有效减轻过拟合问题。
Mar, 2024
本研究提出了一种针对音视频问答(AVQA)任务的目标感知联合时空基础网络,利用三种模态的一致性损失实现了问题感知的时空基础,增加了音频 - 视觉互动,采用了单一流结构中的融合方法,在 MUSIC-AVQA 数据集上的实验结果证明了该方法优越性及其有效性。
May, 2023
为了更高效地回答关于视频中的视觉对象、声音及其关联的问题,本文提出了一种渐进式时空感知网络(PSTP-Net),通过三个模块逐步识别问题相关的关键时空区域。从公共数据集 MUSIC-AVQA 和 AVQA 的广泛实验结果来看,PSTP-Net 在有效性和效率上具备了令人信服的证据。
Aug, 2023
提出了一种基于物体属性利用的视觉问答方法,旨在实现更好的物体级视觉 - 语言对齐和多模态场景理解。通过属性融合模块和对比知识蒸馏模块,构建多模态图神经网络,融合属性和视觉特征,改善细粒度问题的解决和多模态场景的理解,从而提高模型的鲁棒性。通过对六个数据集的密集实验,COCO-QA、VQAv2、VQA-CPv2、VQA-CPv1、VQAvs 和 TDIUC,验证了该方法的优越性。
Dec, 2023
我们提出了一种基于音频查询的 Transformer 架构 (AQFormer),通过在视觉特征中利用预定义的音频查询聚集对象信息,建立了音频和视觉模态之间的明确的对象级语义对应关系,并提出了一种基于音频的时间交互模块来在多帧之间交换与声音对象相关的信息,实验结果证明我们的方法在两个 AVS 基准测试集上取得了最先进的性能,尤其在 MS3 设置上取得了 7.1% 的 M_J 增益和 7.6% 的 M_F 增益。
Sep, 2023
在这篇论文中,我们提出了一种新的上下文多模态对齐(CAD)网络,通过引入无参数随机上下文块来确保空间级别上的稳健音频和视觉对齐,提出了一种用于动态音频和视觉对齐的预训练技术,以及引入了交叉注意机制来平衡语义级别上的音频和视觉信息。在 MUSIC-AVQA 数据集上,该 CAD 网络相对于现有方法平均性能提高了 9.4%。我们还证明了将我们对 AVQA 的建议添加到现有方法中可以提高其性能,而不需要额外的复杂性要求。
Oct, 2023
该研究关注多模态研究中的音频、视觉和文本模式的交叉,通过对原数据集中带有显著答案偏见的问题类型的梳理,构建了一个名为 MUSIC-AVQA v2.0 的新数据集,并提出了一种新型基线模型,通过研究音频 - 视觉 - 文本相互关系,在 MUSIC-AVQA v2.0 上的准确性超过了现有的基准,达到了新的最先进水平。
Oct, 2023
本文介绍了一种新的多项选择视频问题回答(Video QA)的训练方案,其中包括自监督预训练阶段和监督对比学习的辅助学习。在自监督预训练阶段中,我们将原始问题格式进行了转化,以预测相关问题并提供模型更广泛的背景输入。然后,我们在对比学习的主阶段中添加了屏蔽噪声,并通过将正样本映射到受掩输入来改进模型表现。最后,我们采用了本地对齐注意力来更有效地关注相关字幕句子的视频帧。我们的实验结果表明,我们的模型在相关测试集上均取得了最先进的性能,并通过进一步的分析验证了我们的方法。
Sep, 2020