在动态音视频场景中学习回答问题
本研究提出了一种针对音视频问答(AVQA)任务的目标感知联合时空基础网络,利用三种模态的一致性损失实现了问题感知的时空基础,增加了音频 - 视觉互动,采用了单一流结构中的融合方法,在 MUSIC-AVQA 数据集上的实验结果证明了该方法优越性及其有效性。
May, 2023
音频 - 视觉问答(AVQA)是一个复杂的多模态推理任务,要求智能系统基于音频 - 视频输入对准确地回答自然语言查询。然而,现有的 AVQA 方法容易过度学习数据集偏差,导致鲁棒性差。我们提出了一个新的数据集(MUSIC-AVQA-R),并提出了一个鲁棒的架构,通过多方位的循环协作去偏策略来克服偏差学习问题。结果表明,该架构在两个数据集上均取得了最先进的性能,特别是在我们提出的数据集上提升了 9.68%。通过对我们的数据集进行评估,还突显了现有的多模态 QA 方法的有限鲁棒性。
Apr, 2024
基于音频 - 视觉问题回答任务(AVQA),本文提出了一种针对细粒度视觉对象的端到端对象导向网络,通过特征交互和模型优化来探索多模态关系,并在模型优化方面提出了一种对象感知自适应正性学习策略,以选择高度语义匹配的多模态对作为正性。通过对 MUSIC-AVQA 数据集进行的大量实验证明,该方法能够有效地找到有利的音频 - 视觉线索,并取得了新的最先进的问题回答性能。
Dec, 2023
本文旨在将音视频问答(AVQA)扩展到多语言环境。我们利用机器翻译提出了两个多语言 AVQA 数据集,涵盖了八种语言,并引入了 MERA 框架,该框架利用了先进的视频、音频和文本基础模型来进行多语言 AVQA 的基准测试。我们相信这项工作将开辟新的研究方向,并为未来的多语言 AVQA 提供参考基准。
Jun, 2024
为了更高效地回答关于视频中的视觉对象、声音及其关联的问题,本文提出了一种渐进式时空感知网络(PSTP-Net),通过三个模块逐步识别问题相关的关键时空区域。从公共数据集 MUSIC-AVQA 和 AVQA 的广泛实验结果来看,PSTP-Net 在有效性和效率上具备了令人信服的证据。
Aug, 2023
本文提出了 Pano-AVQA 基准测试用于评估全景视频中音频 - 视觉关系和球形空间关系的语义理解。使用在线获取的 5.4K 个视频剪辑,收集了两种类型的新型问题 - 答案对。通过球形空间嵌入和多模态训练目标,使用多个基于 Transformer 的模型从 Pano-AVQA 中进行训练,结果表明我们的提出的球形空间嵌入和多模态训练目标对数据集上全景环境的语义理解有很好的帮助。
Oct, 2021
音视频问答(AVQA)需要参考视频内容和听觉信息,然后将问题相关联以预测最精确的答案。本文提出了一种进行互相关蒸馏(MCD)的框架,以帮助问题推理。通过增强音视频软关联、知识蒸馏和解耦音视频依赖等步骤,我们的方法在多个问答数据集上展现出优于其他方法的表现,有趣的发现是,在推理过程中去除深度音视频特征可以有效减轻过拟合问题。
Mar, 2024
本论文介绍了场景感知对话任务,通过视频和音频研究场景,并在对话历史中利用上下文线索,以回答关于场景的问题;同时提出了 AVSD 数据集,并通过多项定量和定性指标评估了基础模型的表现,结果表明模型必须充分利用所有可用输入(视频、音频、问题和对话历史)才能在该数据集上取得最佳表现。
Jan, 2019
该研究针对视频问答这一任务,提出增加 bounding boxes 数据集,以此为基础构建了 STAGE 框架,在空间和时间域上对视频进行处理,以便回答关于视频的自然语言问题,并展示了实验结果和可视化。
Apr, 2019
在这篇论文中,我们提出了一种新的上下文多模态对齐(CAD)网络,通过引入无参数随机上下文块来确保空间级别上的稳健音频和视觉对齐,提出了一种用于动态音频和视觉对齐的预训练技术,以及引入了交叉注意机制来平衡语义级别上的音频和视觉信息。在 MUSIC-AVQA 数据集上,该 CAD 网络相对于现有方法平均性能提高了 9.4%。我们还证明了将我们对 AVQA 的建议添加到现有方法中可以提高其性能,而不需要额外的复杂性要求。
Oct, 2023