CAD - 动态音视频问题回答的上下文多模态对齐

Oct, 2023

CAD - 动态音视频问题回答的上下文多模态对齐

CAD -- Contextual Multi-modal Alignment for Dynamic AVQA

Asmar Nadeem, Adrian Hilton, Robert Dawes, Graham Thomas, Armin Mustafa

TL;DR在这篇论文中，我们提出了一种新的上下文多模态对齐（CAD）网络，通过引入无参数随机上下文块来确保空间级别上的稳健音频和视觉对齐，提出了一种用于动态音频和视觉对齐的预训练技术，以及引入了交叉注意机制来平衡语义级别上的音频和视觉信息。在 MUSIC-AVQA 数据集上，该 CAD 网络相对于现有方法平均性能提高了 9.4％。我们还证明了将我们对 AVQA 的建议添加到现有方法中可以提高其性能，而不需要额外的复杂性要求。

Abstract

In the context of audio visual question answering (avqa) tasks, the audio visual modalities could be learnt on three levels: 1) Spatial, 2) Temporal, and 3) Semantic. Existing →

audio visual question answering avqa contextual multi-modal alignment cad network performance improvement

发现论文，激发创造

在动态音视频场景中学习回答问题

本文研究了 Audio-Visual Question Answering（AVQA）任务，提出了一个包含超过 45K 个问题 - 答案对的 MUSIC-AVQA 数据集并使用多模态知识和视听场景的时空推理来解决该问题，结果表明我们的方法优于现有的 A-V 和 AVQA 方法。

Mar, 2022

面向动态音视情境的目标感知时空推理问题回答

本研究提出了一种针对音视频问答（AVQA）任务的目标感知联合时空基础网络，利用三种模态的一致性损失实现了问题感知的时空基础，增加了音频 - 视觉互动，采用了单一流结构中的融合方法，在 MUSIC-AVQA 数据集上的实验结果证明了该方法优越性及其有效性。

May, 2023

通过附带关键音频 - 视觉线索的文本回答多样化问题

音视频问答（AVQA）需要参考视频内容和听觉信息，然后将问题相关联以预测最精确的答案。本文提出了一种进行互相关蒸馏（MCD）的框架，以帮助问题推理。通过增强音视频软关联、知识蒸馏和解耦音视频依赖等步骤，我们的方法在多个问答数据集上展现出优于其他方法的表现，有趣的发现是，在推理过程中去除深度音视频特征可以有效减轻过拟合问题。

Mar, 2024

从 FiLM 到视频：多模态背景下的多轮问答

通过 AVSD 挑战，本文提出了一种层次化编码 - 解码模型来回答有关视频的问题，采用预训练的 I3D 和 VGGish 模型计算视频及音频帧的语义特征，并使用 FiLM 块进行条件编码以降低维数，最终使用 LSTM 解码器通过计划采样进行训练和束搜索进行评估，相比于 AVSD 挑战组织者发布的模态融合基准模型，我们的模型实现了超过 16％的相对改善，得分为 0.36 BLEU -4，超过 33％的得分为 0.997 CIDEr。

Dec, 2018

CAT: 增强多模态大型语言模型以回答动态音频 - 视觉场景中的问题

本研究关注于回答由丰富而复杂的动态视听组件组成的场景中的问题，引入了 CAT 来增强 Multimodal Large Language Models（MLLMs）在这些场景中的应用，CAT 通过聚合问题相关线索、训练混合多模态数据集以及优化模型，提高了模型在多模态任务中的表现，特别是在音视频问题回答任务中。

Mar, 2024

通过数据增强的问答方法进行多模态对话状态跟踪

文章提出了一个基于多模态融合和注意力机制的开放域问答系统，用于解决 Audio-Video Scene-Aware Dialogue（AVSD）任务，结果表明基于问答假设的数据增广技术和模型均能在 DSTC7-AVSD 数据集上带来显著的改进。

Jul, 2020

基于上下文关注机制的口语会话问答知识转移

该研究提出了一种名为 CADNet 的方法，该方法使用上下文化注意力分层蒸馏技术，从而在 SCQA 任务中更好地抵御 ASR 噪声，最终在 Spoken-CoQA 数据集上实现了显著性能提升。

Oct, 2020

MA-AVT：用于参数高效音频 - 视觉变换器的模态对齐

该论文介绍了一种新的参数高效的视听变压器 MA-AVT，采用深度模态对齐来实现对应的多模态语义特征的对齐，通过联合单模态和多模态令牌学习，引入冻结的模态共享变压器，使模型能够学习到每种模态的独立表示，并关注它们之间的跨模态关系。此外，在编码阶段引入块对齐性学习以对齐粗粒、细粒的层次特征，并引入鲁棒的判别前景挖掘机制以抑制每种模态中的背景特征。通过在 benchmark AVE、VGGSound 和 CREMA-D 数据集上进行的大量实验，该方法在性能上取得了显著的改进。

Jun, 2024

面向对象感知的自适应正性学习用于音频 - 视觉问答

基于音频 - 视觉问题回答任务（AVQA），本文提出了一种针对细粒度视觉对象的端到端对象导向网络，通过特征交互和模型优化来探索多模态关系，并在模型优化方面提出了一种对象感知自适应正性学习策略，以选择高度语义匹配的多模态对作为正性。通过对 MUSIC-AVQA 数据集进行的大量实验证明，该方法能够有效地找到有利的音频 - 视觉线索，并取得了新的最先进的问题回答性能。

Dec, 2023

从特征和样本的视角重新思考视频问答中的多模态对齐

本论文提出一种基于多模态对齐、轨迹特征、层次化框架和训练数据扩充的视频问答方法，并在 NExT-QA 基准测试上表现出很高的性能。

Apr, 2022