高效的选择性音频屏蔽多模声道变换器用于音频 - 视频分类

Jan, 2024

高效的选择性音频屏蔽多模声道变换器用于音频 - 视频分类

Efficient Selective Audio Masked Multimodal Bottleneck Transformer for Audio-Video Classification

Wentao Zhu

TL;DR提出了一种名为 AVT 的新颖的音视频识别方法，利用视频 Transformer 在时空上的表示来提高动作识别的准确性，并通过音视频瓶颈 Transformer 减少跨模态复杂度，融合自监督目标，而进一步引入一个屏蔽音频片段损失，以学习 AVT 中的语义音频活动。在多个数据集上的实验及消融研究一致表明 AVT 方法的有效性。

Abstract

Audio and video are two most common modalities in the mainstream media platforms, e.g., YouTube. To learn from multimodal videos effectively, in this work, we propose a novel audio-video recognition approach termed audio video Transformer, →

audio-video recognition multimodal fusion multimodal transformer self-supervised objectives avt

发现论文，激发创造

高效多尺度多模态瓶颈变压器用于音视频分类

本文介绍了一种多尺度多模态转换器（MMT），利用层次化表示学习，进一步使用音频 - 视频对比损失和同模态对比损失来实现多模态融合，提高动作识别准确率。

Jan, 2024

MA-AVT：用于参数高效音频 - 视觉变换器的模态对齐

该论文介绍了一种新的参数高效的视听变压器 MA-AVT，采用深度模态对齐来实现对应的多模态语义特征的对齐，通过联合单模态和多模态令牌学习，引入冻结的模态共享变压器，使模型能够学习到每种模态的独立表示，并关注它们之间的跨模态关系。此外，在编码阶段引入块对齐性学习以对齐粗粒、细粒的层次特征，并引入鲁棒的判别前景挖掘机制以抑制每种模态中的背景特征。通过在 benchmark AVE、VGGSound 和 CREMA-D 数据集上进行的大量实验，该方法在性能上取得了显著的改进。

Jun, 2024

VATT：用于原始视频、音频和文本的多模态自监督学习的 Transformer 模型

我们提出了一种使用无标签数据学习多模态表示的框架，利用无卷积的 Transformer 架构。通过使用多模态对比损失训练 Video-Audio-Text Transformer (VATT)，我们从三个模态中提取丰富的多模态表示，并在视频动作识别、音频事件分类、图像分类和文本到视频检索等下游任务中对其性能进行评估。VATT 不需要监督预训练，其视觉 Transformer 在 Kinetics-400 上实现了 82.1%、在 Kinetics-600 上实现了 83.6%、在 Kinetics-700 上实现了 72.7%、在 Moments in Time 上实现了 41.1% 的最高准确率，并且将 VATT 迁移至图像分类任务中，其 ImageNet 的最高准确率达到了 78.7%。VATT 的音频 Transformer 在 AudioSet 上实现了 39.4% 的 mAP，而不需要监督预训练，表现出模型的泛化能力。

Apr, 2021

音频感知的查询增强变换器用于音频 - 视觉分割

通过引入多模式变压器架构来深度融合和聚合音频 - 视觉特征，我们提出了一种新颖的音频感知查询增强转换器 (AuTR)，用于解决音频 - 视觉分割任务。实验结果表明，我们的方法在多声音和开放场景中具有更好的普适性和性能优势。

Jul, 2023

AVTENet: 基于音频和视觉的 Transformer 集成网络在视频深度伪造检测中的应用

本研究提出了一种基于音频和视觉操纵的音视频伪造检测模型，使用 Transformer 框架，通过多个变体捕捉视觉、音频和音视频显著线索，并在最新发布的 FakeAVCeleb 数据集上取得了最好的性能。

Oct, 2023

参数高效的多模态变压器用于视频表示学习

本研究针对音视频表示学习中的多模态转换器，通过分解模态特定和模态共享部分，基于低秩逼近提出了一种新的参数共享方案来降低其参数，并提出一种基于 CNN 嵌入空间的实例相似性负采样方法，可以将模型从头开始训练，并通过预先训练的方式在 Kinetics-700 上演示了我们的方法。

Dec, 2020

多模态融合中的注意力瓶颈

本篇论文介绍了一种基于 transformer 的新颖架构，使用多层的融合瓶颈来进行多模态融合，实现了在多个音视频分类基准测试上的最新的结果，同时降低了计算成本。

Jun, 2021

MM-ViT：用于压缩视频动作识别的多模态视频 Transformer

该论文提出了一种基于多模态视频变换器 (MM-ViT) 的纯 Transformer 方法，其能够从压缩视频领域的多个可用模态中获取信息并实现动作识别，采用多个可扩展模型变量来处理来自多个模态的大量空间和时间令牌，进一步探索其丰富的模态间互动和效果，并比较了三种不同的跨模态注意机制。该方法在三个公共的动作识别基准测试（UCF-101，Something-Something-v2，Kinetics-600）上表现出超越现有技术的性能，既高效又精确。

Aug, 2021

音视频线索的更佳应用：基于双模变换器的密集视频字幕

本文介绍了一种基于 Transformer 结构的双模态编码器，用于处理 Dense Video Captioning 任务，通过同时处理视频和音频两种输入，该模型在 ActivityNet Captions 数据集上取得了出色的性能表现。

May, 2020

文本和视频的桥梁：用于视频音频场景感知对话的通用多模态 Transformer

该研究提出了一种通用的多模态转换器，并引入了多任务学习的方法，以解决视频聊天中的音视频场景感知对话生成任务，并将自然语言生成预训练模型扩展到多模态对话生成任务。我们的系统在该挑战中取得了最佳表现。

Feb, 2020