通过附带关键音频 - 视觉线索的文本回答多样化问题

Mar, 2024

通过附带关键音频 - 视觉线索的文本回答多样化问题

Answering Diverse Questions via Text Attached with Key Audio-Visual Clues

Qilang Ye, Zitong Yu, Xin Liu

TL;DR音视频问答（AVQA）需要参考视频内容和听觉信息，然后将问题相关联以预测最精确的答案。本文提出了一种进行互相关蒸馏（MCD）的框架，以帮助问题推理。通过增强音视频软关联、知识蒸馏和解耦音视频依赖等步骤，我们的方法在多个问答数据集上展现出优于其他方法的表现，有趣的发现是，在推理过程中去除深度音视频特征可以有效减轻过拟合问题。

Abstract

audio-visual question answering (AVQA) requires reference to video content and auditory information, followed by correlating the question to predict the most precise answer. Although mining deeper layers of audio-visual information to interact with questions facilitates the

audio-visual question answering mutual correlation distillation multimodal fusion deep audio-visual features overfitting

发现论文，激发创造

在动态音视频场景中学习回答问题

本文研究了 Audio-Visual Question Answering（AVQA）任务，提出了一个包含超过 45K 个问题 - 答案对的 MUSIC-AVQA 数据集并使用多模态知识和视听场景的时空推理来解决该问题，结果表明我们的方法优于现有的 A-V 和 AVQA 方法。

Mar, 2022

面向对象感知的自适应正性学习用于音频 - 视觉问答

基于音频 - 视觉问题回答任务（AVQA），本文提出了一种针对细粒度视觉对象的端到端对象导向网络，通过特征交互和模型优化来探索多模态关系，并在模型优化方面提出了一种对象感知自适应正性学习策略，以选择高度语义匹配的多模态对作为正性。通过对 MUSIC-AVQA 数据集进行的大量实验证明，该方法能够有效地找到有利的音频 - 视觉线索，并取得了新的最先进的问题回答性能。

Dec, 2023

听、看、回答：克服音频视觉问题回答中的偏差

音频 - 视觉问答（AVQA）是一个复杂的多模态推理任务，要求智能系统基于音频 - 视频输入对准确地回答自然语言查询。然而，现有的 AVQA 方法容易过度学习数据集偏差，导致鲁棒性差。我们提出了一个新的数据集（MUSIC-AVQA-R），并提出了一个鲁棒的架构，通过多方位的循环协作去偏策略来克服偏差学习问题。结果表明，该架构在两个数据集上均取得了最先进的性能，特别是在我们提出的数据集上提升了 9.68％。通过对我们的数据集进行评估，还突显了现有的多模态 QA 方法的有限鲁棒性。

Apr, 2024

CAD - 动态音视频问题回答的上下文多模态对齐

在这篇论文中，我们提出了一种新的上下文多模态对齐（CAD）网络，通过引入无参数随机上下文块来确保空间级别上的稳健音频和视觉对齐，提出了一种用于动态音频和视觉对齐的预训练技术，以及引入了交叉注意机制来平衡语义级别上的音频和视觉信息。在 MUSIC-AVQA 数据集上，该 CAD 网络相对于现有方法平均性能提高了 9.4％。我们还证明了将我们对 AVQA 的建议添加到现有方法中可以提高其性能，而不需要额外的复杂性要求。

Oct, 2023

面向动态音视情境的目标感知时空推理问题回答

本研究提出了一种针对音视频问答（AVQA）任务的目标感知联合时空基础网络，利用三种模态的一致性损失实现了问题感知的时空基础，增加了音频 - 视觉互动，采用了单一流结构中的融合方法，在 MUSIC-AVQA 数据集上的实验结果证明了该方法优越性及其有效性。

May, 2023

面向多语言音视频问答

本文旨在将音视频问答（AVQA）扩展到多语言环境。我们利用机器翻译提出了两个多语言 AVQA 数据集，涵盖了八种语言，并引入了 MERA 框架，该框架利用了先进的视频、音频和文本基础模型来进行多语言 AVQA 的基准测试。我们相信这项工作将开辟新的研究方向，并为未来的多语言 AVQA 提供参考基准。

Jun, 2024

CAT: 增强多模态大型语言模型以回答动态音频 - 视觉场景中的问题

本研究关注于回答由丰富而复杂的动态视听组件组成的场景中的问题，引入了 CAT 来增强 Multimodal Large Language Models（MLLMs）在这些场景中的应用，CAT 通过聚合问题相关线索、训练混合多模态数据集以及优化模型，提高了模型在多模态任务中的表现，特别是在音视频问题回答任务中。

Mar, 2024

使用 CLIP 引导的视觉文本注意力进行视频问答

本文提出了一种利用 Contrastive Language-Image Pre-training（CLIP）作为跨模态学习指导的 Visual-Text Attention 机制来应用于视频问答任务。在特定领域中提取视频和文本特征后，利用 CLIP 对一组通用知识域上视觉 - 文本特征进行特征提取，并提出了交叉域学习来提取目标域和通用域间的视觉和语言特征之间的注意力信息，将特征集成用于迁移学习，结果表明这种方法优于现有的最先进方法。

Mar, 2023

通过组合对比学习提炼视听知识

本文介绍了一种新的跨模态知识迁移方法，使用组合对比学习来学习复合嵌入，通过学习多模态知识来改善视频表示学习表现。在三个视频数据集上进行的实验表明，该方法显著优于现有的知识蒸馏方法。

Apr, 2021

从网络视频中学习回答视觉问题

为了避免手动注释，提出了利用自动交叉模态监督生成视频问答数据集的方法，通过使用问题生成变形器从语音转录中生成问题 - 答案对，然后根据视频 - 问题多模式变形器和答案变形器之间的对比损失训练处理答案的多模式变形器，生成如何 VQA69M，WebVidVQA3M 和 iVQA 等不同数据集，结果表明在多个数据集上其结果优秀。

May, 2022