通过附带关键音频 - 视觉线索的文本回答多样化问题
本文研究了 Audio-Visual Question Answering(AVQA)任务,提出了一个包含超过 45K 个问题 - 答案对的 MUSIC-AVQA 数据集并使用多模态知识和视听场景的时空推理来解决该问题,结果表明我们的方法优于现有的 A-V 和 AVQA 方法。
Mar, 2022
基于音频 - 视觉问题回答任务(AVQA),本文提出了一种针对细粒度视觉对象的端到端对象导向网络,通过特征交互和模型优化来探索多模态关系,并在模型优化方面提出了一种对象感知自适应正性学习策略,以选择高度语义匹配的多模态对作为正性。通过对 MUSIC-AVQA 数据集进行的大量实验证明,该方法能够有效地找到有利的音频 - 视觉线索,并取得了新的最先进的问题回答性能。
Dec, 2023
音频 - 视觉问答(AVQA)是一个复杂的多模态推理任务,要求智能系统基于音频 - 视频输入对准确地回答自然语言查询。然而,现有的 AVQA 方法容易过度学习数据集偏差,导致鲁棒性差。我们提出了一个新的数据集(MUSIC-AVQA-R),并提出了一个鲁棒的架构,通过多方位的循环协作去偏策略来克服偏差学习问题。结果表明,该架构在两个数据集上均取得了最先进的性能,特别是在我们提出的数据集上提升了 9.68%。通过对我们的数据集进行评估,还突显了现有的多模态 QA 方法的有限鲁棒性。
Apr, 2024
在这篇论文中,我们提出了一种新的上下文多模态对齐(CAD)网络,通过引入无参数随机上下文块来确保空间级别上的稳健音频和视觉对齐,提出了一种用于动态音频和视觉对齐的预训练技术,以及引入了交叉注意机制来平衡语义级别上的音频和视觉信息。在 MUSIC-AVQA 数据集上,该 CAD 网络相对于现有方法平均性能提高了 9.4%。我们还证明了将我们对 AVQA 的建议添加到现有方法中可以提高其性能,而不需要额外的复杂性要求。
Oct, 2023
本研究提出了一种针对音视频问答(AVQA)任务的目标感知联合时空基础网络,利用三种模态的一致性损失实现了问题感知的时空基础,增加了音频 - 视觉互动,采用了单一流结构中的融合方法,在 MUSIC-AVQA 数据集上的实验结果证明了该方法优越性及其有效性。
May, 2023
本文旨在将音视频问答(AVQA)扩展到多语言环境。我们利用机器翻译提出了两个多语言 AVQA 数据集,涵盖了八种语言,并引入了 MERA 框架,该框架利用了先进的视频、音频和文本基础模型来进行多语言 AVQA 的基准测试。我们相信这项工作将开辟新的研究方向,并为未来的多语言 AVQA 提供参考基准。
Jun, 2024
本研究关注于回答由丰富而复杂的动态视听组件组成的场景中的问题,引入了 CAT 来增强 Multimodal Large Language Models(MLLMs)在这些场景中的应用,CAT 通过聚合问题相关线索、训练混合多模态数据集以及优化模型,提高了模型在多模态任务中的表现,特别是在音视频问题回答任务中。
Mar, 2024
本文提出了一种利用 Contrastive Language-Image Pre-training(CLIP)作为跨模态学习指导的 Visual-Text Attention 机制来应用于视频问答任务。在特定领域中提取视频和文本特征后,利用 CLIP 对一组通用知识域上视觉 - 文本特征进行特征提取,并提出了交叉域学习来提取目标域和通用域间的视觉和语言特征之间的注意力信息,将特征集成用于迁移学习,结果表明这种方法优于现有的最先进方法。
Mar, 2023
本文介绍了一种新的跨模态知识迁移方法,使用组合对比学习来学习复合嵌入,通过学习多模态知识来改善视频表示学习表现。在三个视频数据集上进行的实验表明,该方法显著优于现有的知识蒸馏方法。
Apr, 2021
为了避免手动注释,提出了利用自动交叉模态监督生成视频问答数据集的方法,通过使用问题生成变形器从语音转录中生成问题 - 答案对,然后根据视频 - 问题多模式变形器和答案变形器之间的对比损失训练处理答案的多模式变形器,生成如何 VQA69M,WebVidVQA3M 和 iVQA 等不同数据集,结果表明在多个数据集上其结果优秀。
May, 2022