CAT: 增强多模态大型语言模型以回答动态音频 - 视觉场景中的问题

Mar, 2024

CAT: 增强多模态大型语言模型以回答动态音频 - 视觉场景中的问题

CAT: Enhancing Multimodal Large Language Model to Answer Questions in Dynamic Audio-Visual Scenarios

Qilang Ye, Zitong Yu, Rui Shao, Xinyu Xie, Philip Torr...

TL;DR本研究关注于回答由丰富而复杂的动态视听组件组成的场景中的问题，引入了 CAT 来增强 Multimodal Large Language Models（MLLMs）在这些场景中的应用，CAT 通过聚合问题相关线索、训练混合多模态数据集以及优化模型，提高了模型在多模态任务中的表现，特别是在音视频问题回答任务中。

Abstract

This paper focuses on the challenge of answering questions in scenarios that are composed of rich and complex dynamic audio-visual components. Although existing multimodal large language models (MLLMs) can respond to audio-visual content, these responses are sometimes ambiguous and fai

multimodal large language models cat audio-visual scenarios avinstruct audio-visual question answering

发现论文，激发创造

通过附带关键音频 - 视觉线索的文本回答多样化问题

音视频问答（AVQA）需要参考视频内容和听觉信息，然后将问题相关联以预测最精确的答案。本文提出了一种进行互相关蒸馏（MCD）的框架，以帮助问题推理。通过增强音视频软关联、知识蒸馏和解耦音视频依赖等步骤，我们的方法在多个问答数据集上展现出优于其他方法的表现，有趣的发现是，在推理过程中去除深度音视频特征可以有效减轻过拟合问题。

Mar, 2024

Meerkat: 音视大型语言模型在时空中的基线

Meerkat 是一个具有对图像和音频进行空间和时间精细理解的音频 - 视觉 LLM 模型，通过优化传输和交叉注意模块，能够处理诸如音频引用图像定位、图像引导音频时间定位和音频 - 视觉事实核查等挑战性任务，在包含 300 万数据样本的 AVFIT 数据集上取得了相对改进高达 37.12% 的最新性能。

Jul, 2024

在动态音视频场景中学习回答问题

本文研究了 Audio-Visual Question Answering（AVQA）任务，提出了一个包含超过 45K 个问题 - 答案对的 MUSIC-AVQA 数据集并使用多模态知识和视听场景的时空推理来解决该问题，结果表明我们的方法优于现有的 A-V 和 AVQA 方法。

Mar, 2022

音视频 LLM 用于视频理解

该论文介绍了一种名为 Audio-Visual LLM 的多模态大型语言模型，它通过同时接收视觉和听觉输入来进行综合视频理解。该模型的关键设计是模态增强训练，它通过集成专门设计的模态特定标记来有选择地激活适当的视觉和 / 或听觉编码器。此机制对于实现端到端的多模态视频数据联合训练至关重要。实验证明，Audio-Visual LLM 在各种视频理解任务中取得了令人印象深刻的零样本结果。

Dec, 2023

CAD - 动态音视频问题回答的上下文多模态对齐

在这篇论文中，我们提出了一种新的上下文多模态对齐（CAD）网络，通过引入无参数随机上下文块来确保空间级别上的稳健音频和视觉对齐，提出了一种用于动态音频和视觉对齐的预训练技术，以及引入了交叉注意机制来平衡语义级别上的音频和视觉信息。在 MUSIC-AVQA 数据集上，该 CAD 网络相对于现有方法平均性能提高了 9.4％。我们还证明了将我们对 AVQA 的建议添加到现有方法中可以提高其性能，而不需要额外的复杂性要求。

Oct, 2023

面向多语言音视频问答

本文旨在将音视频问答（AVQA）扩展到多语言环境。我们利用机器翻译提出了两个多语言 AVQA 数据集，涵盖了八种语言，并引入了 MERA 框架，该框架利用了先进的视频、音频和文本基础模型来进行多语言 AVQA 的基准测试。我们相信这项工作将开辟新的研究方向，并为未来的多语言 AVQA 提供参考基准。

Jun, 2024

CATR：组合依赖音频查询变压器用于音频视觉视频分割

提出了一种分离的音频 - 视频变换器，通过结合音频和视频的时间和空间维度的特征，捕捉它们的联合依赖性，并在解码阶段引入音频约束和对象级信息，从而实现与音频方向相符的音频 - 视觉视频分割，达到了三个数据集上的先进水平。

Sep, 2023

跨模态提示：为音频 - 视觉下游任务调整大型预训练模型

本论文提出了一种新的双向引导空间 - 通道 - 时间（DG-SCT）注意力机制，通过引入可训练的跨模态交互层，从当前模态跨空间、通道和时间维度自适应地提取关键信息，以解决多模态任务中的特征提取挑战，其结果在多个下游任务中达到最先进水平，并在挑战性的少样本和零样本场景中表现出良好性能。

Nov, 2023

Video-LLaMA: 一种面向视频理解的指令优化的音视频语言模型

Video-LLaMA 是一种多模态框架，通过将预训练的视觉和音频编码器与预训练的大型语言模型结合，实现对视频内容的理解，具有捕捉视觉场景中的时间变化和整合音频 - 视觉信号等优势，因此被视为具有潜力的音视频 AI 助手原型。

Jun, 2023

从 FiLM 到视频：多模态背景下的多轮问答

通过 AVSD 挑战，本文提出了一种层次化编码 - 解码模型来回答有关视频的问题，采用预训练的 I3D 和 VGGish 模型计算视频及音频帧的语义特征，并使用 FiLM 块进行条件编码以降低维数，最终使用 LSTM 解码器通过计划采样进行训练和束搜索进行评估，相比于 AVSD 挑战组织者发布的模态融合基准模型，我们的模型实现了超过 16％的相对改善，得分为 0.36 BLEU -4，超过 33％的得分为 0.997 CIDEr。

Dec, 2018