MA-AVT：用于参数高效音频 - 视觉变换器的模态对齐

CVPRJun, 2024

MA-AVT：用于参数高效音频 - 视觉变换器的模态对齐

MA-AVT: Modality Alignment for Parameter-Efficient Audio-Visual Transformers

Tanvir Mahmud, Shentong Mo, Yapeng Tian, Diana Marculescu

TL;DR该论文介绍了一种新的参数高效的视听变压器 MA-AVT，采用深度模态对齐来实现对应的多模态语义特征的对齐，通过联合单模态和多模态令牌学习，引入冻结的模态共享变压器，使模型能够学习到每种模态的独立表示，并关注它们之间的跨模态关系。此外，在编码阶段引入块对齐性学习以对齐粗粒、细粒的层次特征，并引入鲁棒的判别前景挖掘机制以抑制每种模态中的背景特征。通过在 benchmark AVE、VGGSound 和 CREMA-D 数据集上进行的大量实验，该方法在性能上取得了显著的改进。

Abstract

Recent advances in pre-trained vision transformers have shown promise in parameter-efficient audio-visual learning without audio pre-train

pre-trained vision transformers audio-visual learning multimodal features modality alignment parameter-efficient

发现论文，激发创造

高效的选择性音频屏蔽多模声道变换器用于音频 - 视频分类

提出了一种名为 AVT 的新颖的音视频识别方法，利用视频 Transformer 在时空上的表示来提高动作识别的准确性，并通过音视频瓶颈 Transformer 减少跨模态复杂度，融合自监督目标，而进一步引入一个屏蔽音频片段损失，以学习 AVT 中的语义音频活动。在多个数据集上的实验及消融研究一致表明 AVT 方法的有效性。

Jan, 2024

参数高效的多模态变压器用于视频表示学习

本研究针对音视频表示学习中的多模态转换器，通过分解模态特定和模态共享部分，基于低秩逼近提出了一种新的参数共享方案来降低其参数，并提出一种基于 CNN 嵌入空间的实例相似性负采样方法，可以将模型从头开始训练，并通过预先训练的方式在 Kinetics-700 上演示了我们的方法。

Dec, 2020

高效多尺度多模态瓶颈变压器用于音视频分类

本文介绍了一种多尺度多模态转换器（MMT），利用层次化表示学习，进一步使用音频 - 视频对比损失和同模态对比损失来实现多模态融合，提高动作识别准确率。

Jan, 2024

跨模态提示：为音频 - 视觉下游任务调整大型预训练模型

本论文提出了一种新的双向引导空间 - 通道 - 时间（DG-SCT）注意力机制，通过引入可训练的跨模态交互层，从当前模态跨空间、通道和时间维度自适应地提取关键信息，以解决多模态任务中的特征提取挑战，其结果在多个下游任务中达到最先进水平，并在挑战性的少样本和零样本场景中表现出良好性能。

Nov, 2023

VATT：用于原始视频、音频和文本的多模态自监督学习的 Transformer 模型

我们提出了一种使用无标签数据学习多模态表示的框架，利用无卷积的 Transformer 架构。通过使用多模态对比损失训练 Video-Audio-Text Transformer (VATT)，我们从三个模态中提取丰富的多模态表示，并在视频动作识别、音频事件分类、图像分类和文本到视频检索等下游任务中对其性能进行评估。VATT 不需要监督预训练，其视觉 Transformer 在 Kinetics-400 上实现了 82.1%、在 Kinetics-600 上实现了 83.6%、在 Kinetics-700 上实现了 72.7%、在 Moments in Time 上实现了 41.1% 的最高准确率，并且将 VATT 迁移至图像分类任务中，其 ImageNet 的最高准确率达到了 78.7%。VATT 的音频 Transformer 在 AudioSet 上实现了 39.4% 的 mAP，而不需要监督预训练，表现出模型的泛化能力。

Apr, 2021

通过跨模态梯度协调扩展多模态预训练

本文讨论了跨模态对齐的效果和问题，提出了通过梯度调整和基于梯度的课程学习解决梯度冲突的方法，并将其应用于视频音频文本模态的预训练中以提高性能。

Nov, 2022

情感回归和分类任务中处理单一和多模态的多功能视听学习

提出了用于处理单模式和多模式情感情况的多功能音视频学习框架，通过音视频共享层，残差连接和单模态重构任务实现有效的表示学习，在情感属性预测任务上达到了新的最先进性能。

May, 2023

无监督音频视觉分割与模态对齐

通过无监督学习方法 MoCA，在像素级上将音频和视觉图像相互关联，实现音频视觉分割的目标，超过基线方法并在复杂情况下实现了显著的性能提升。

Mar, 2024

通过文本到视频模型的调整实现多样和一致的音视频生成

生成多样化和逼真的视频，根据语义类别广泛的自然音频样本进行引导。采用了基于轻量级适配器网络的方法，将音频基础表示映射到文本 - 视频生成模型所期望的输入表示，实现了对文本、音频以及文本和音频的生成视频。在三个数据集上验证了该方法，展示了生成的音频视频样本的显著语义多样性，并提出了一种新的评估度量（AV-Align）以评估生成视频与输入音频样本的对齐性。与最新的先进方法相比，我们的方法生成的视频在内容和时间轴上都与输入音频更好地对齐，并且呈现更高的视觉质量和多样性。

Sep, 2023

音频感知的查询增强变换器用于音频 - 视觉分割

通过引入多模式变压器架构来深度融合和聚合音频 - 视觉特征，我们提出了一种新颖的音频感知查询增强转换器 (AuTR)，用于解决音频 - 视觉分割任务。实验结果表明，我们的方法在多声音和开放场景中具有更好的普适性和性能优势。

Jul, 2023