对比音视频掩码自编码器

ICLROct, 2022

Contrastive Audio-Visual Masked Autoencoder

Yuan Gong, Andrew Rouditchenko, Alexander H. Liu, David Harwath, Leonid Karlinsky...

TL;DR本文提出了 CAV-MAE 模型，它将 Masked Auto-Encoder (MAE) 模型从单模态扩展到音频 - 视觉多模态，并结合自监督学习框架中的对比学习和蒙版数据建模两种方法，学习联合和协调的音频 - 视觉表示，并在 VGGSound 数据集中取得了新的 SOTA 准确性，达到了 65.9%。

Abstract

In this paper, we first extend the recent masked auto-encoder (MAE) model from a single modality to audio-visual multi-modalities. Subsequently, we propose the Contrastive Audio-Visual →

masked auto-encoder audio-visual multi-modalities self-supervised learning frameworks cav-mae audio-visual event classification

发现论文，激发创造

HiCMAE：用于自监督音频 - 视觉情感识别的层次对比遮蔽自编码器

提出了一种基于自监督学习的 Hierarchical Contrastive Masked Autoencoder（HiCMAE）框架，通过大规模的自监督预训练提升了音视频情感识别的性能，实验证明 HiCMAE 方法在多个数据集上显著优于现有的有监督和自监督音视频方法。

Jan, 2024

AV-MaskEnhancer：通过音频 - 视觉蒙版自编码器增强视频表达

通过结合视听信息，我们提出了 AV-MaskEnhancer 方法来学习高质量的视频表示，解决了从低分辨率和模糊的原始视频中提取特征的挑战，并在 UCF101 数据集上的视频分类任务中取得了 98.8% 的 top-1 准确率和 99.9% 的 top-5 准确率，超越了现有工作并达到了最先进水平。

Sep, 2023

面向音视频语音情感识别的向量量化掩码自编码器

本研究提出了一种基于矢量量化和自监督学习的 MAE 模型，对语音情感识别领域中标注数据不足的问题提出了一个潜在的解决方案，实验证明该模型在基于 VoxCeleb2 数据库进行预训练并在标准情感音频视觉语音数据集上进行微调后，表现优于现有的音频视觉 SER 方法。

May, 2023

对比遮蔽自编码器是更强的视觉学习者

Contrastive Masked Autoencoders (CMAE) is a new self-supervised pre-training method that unifies contrastive learning (CL) and masked image model (MIM) for learning more powerful visual representation, achieving state-of-the-art results on image classification, semantic segmentation, and object detection tasks.

Jul, 2022

听觉遮盖自编码器

本文研究了基于图像的 Masked Autoencoder（MAE）的简单扩展，用于从音频频谱图进行自监督表示学习，并提出了 Audio-MAE 模型，该模型利用 Transformer 编码器 - 解码器设计，使用高掩蔽率编码音频频谱图，通过仅馈送非遮蔽记号通过编码器层，解码器则重新组织和解码编码器产生的上下文，以重构输入谱图。在六个音频和语音分类任务中，Audio-MAE 都表现出最先进的性能，超过了使用外部监督预训练的其他最新模型.

Jul, 2022

基于遮挡自编码器的视频无监督预训练技术

本文研究了使用 VideoMAE 进行自主监督视频预训练 (SSVP) 的数据高效性问题，并通过适当的视频屏蔽达到了良好的表现，进而证明数据质量对 SSVP 更加重要。

Mar, 2022

基于注意力引导的蒙版自动编码器用于学习图像表示

利用注重对象的重建过程来指导复原能力的建议，通过在损失函数中利用场景的注意力图获取的注意力图，提供更多的重建相关对象的强调，从而激励模型学习更加注重对象的表示，同时通过改进的线性探测和 k-NN 分类在几个基准测试中展示出我们预训练模型具有更好的潜在表示能力，同时使 ViTs 对不同背景更加稳健。

Feb, 2024

MV2MAE：多视角视频掩码自编码器

从多视角捕获的视频可以帮助感知世界的 3D 结构，并对计算机视觉任务，如动作识别、跟踪等产生影响。本文介绍了一种从同步多视角视频中进行自监督学习的方法，通过交叉视角重构任务向模型注入几何信息。我们的方法基于掩码自编码器（MAE）框架，在同视角解码器的基础上，引入了一个独立的交叉视角解码器，利用交叉注意机制从源视角视频重构目标视角视频，以获得对视角变化具有鲁棒性的表示。针对视频，静态区域可以简单地进行重构，这限制了学习有意义表示的能力。为此，我们引入了一种动态加权重构损失来改进时间建模。我们在 NTU-60、NTU-120 和 ETRI 数据集上报告了最先进的结果，并在 NUCLA、PKU-MMD-II 和 ROCOG-v2 数据集上进行了迁移学习设置，证明了我们方法的鲁棒性。我们将提供代码。

Jan, 2024

MAE-AST: 带有遮蔽编码音频频谱变换器

本文提出了一种针对自我监督语音及音频分类中 Self-Supervised Audio Spectrogram Transformer (SSAST) 模型的简单、且功能强大的改进方法。具体而言，我们将来自原模型中使用的高掩模比率（75%）的问题进行改进，并将 Masked Autoencoders are Scalable Vision Learners（MAE）的编码器 - 解码器结构集成到 SSAST 中。我们发现 MAE 预训练可以相较于当前的音频预训练策略，在常规模型和输入尺寸下提供 3 倍的加速和 2 倍的内存使用率降低。在下游任务的微调中，我们发现我们的方法比 SSAST 在各种下游任务中表现更优。我们进一步对预训练的不同策略进行了全面的评估，并探讨了视觉和音频领域之间 MAE 风格预训练的不同之处。

Mar, 2022

模态不可知的元学习遮蔽自编码器的自监督学习

通过将 Masked Auto-Encoder（MAE）作为一个统一的、与模态无关的自监督学习框架，通过元学习对其进行解读，并从统一提高其在不同模态下的自监督学习的动机出发，我们提出了 MetaMAE。我们的关键思想是将 MAE 的掩码重构视为元学习任务，并通过未掩码标记的变换器元学习的涉及来预测掩码令牌。基于这个新颖的解读，我们提出了集成两种先进的元学习技术的方法。首先，我们使用基于梯度的元学习来适应变换器编码器的平均潜在因素以增强重构。然后，我们通过任务对比学习来最大化平均化和适应化潜在因素之间的对齐，从而指导变换器编码器更好地编码任务特定的知识。我们的实验证明了 MetaMAE 在与模态无关的自监督学习基准（称为 DABS）中的优越性，明显优于之前的基线。

Oct, 2023