AV-MaskEnhancer：通过音频 - 视觉蒙版自编码器增强视频表达

Sep, 2023

AV-MaskEnhancer：通过音频 - 视觉蒙版自编码器增强视频表达

AV-MaskEnhancer: Enhancing Video Representations through Audio-Visual Masked Autoencoder

Xingjian Diao, Ming Cheng, Shitong Cheng

TL;DR通过结合视听信息，我们提出了 AV-MaskEnhancer 方法来学习高质量的视频表示，解决了从低分辨率和模糊的原始视频中提取特征的挑战，并在 UCF101 数据集上的视频分类任务中取得了 98.8% 的 top-1 准确率和 99.9% 的 top-5 准确率，超越了现有工作并达到了最先进水平。

Abstract

Learning high-quality video representation has shown significant applications in computer vision and remains challenging. Previous work based on mask autoencoders such as ImageMAE and VideoMAE has proven the effectiveness of learning representations in images and videos through reconst

high-quality video representation mask autoencoders visual and audio information cross-modality content video classification

发现论文，激发创造

对比音视频掩码自编码器

本文提出了 CAV-MAE 模型，它将 Masked Auto-Encoder (MAE) 模型从单模态扩展到音频 - 视觉多模态，并结合自监督学习框架中的对比学习和蒙版数据建模两种方法，学习联合和协调的音频 - 视觉表示，并在 VGGSound 数据集中取得了新的 SOTA 准确性，达到了 65.9%。

Oct, 2022

面向音视频语音情感识别的向量量化掩码自编码器

本研究提出了一种基于矢量量化和自监督学习的 MAE 模型，对语音情感识别领域中标注数据不足的问题提出了一个潜在的解决方案，实验证明该模型在基于 VoxCeleb2 数据库进行预训练并在标准情感音频视觉语音数据集上进行微调后，表现优于现有的音频视觉 SER 方法。

May, 2023

基于遮挡自编码器的视频无监督预训练技术

本文研究了使用 VideoMAE 进行自主监督视频预训练 (SSVP) 的数据高效性问题，并通过适当的视频屏蔽达到了良好的表现，进而证明数据质量对 SSVP 更加重要。

Mar, 2022

VideoMAC: 视频蒙版自动编码器与卷积神经网络相遇

这篇论文介绍了一种名为 VideoMAC 的新方法，结合了对视频帧进行对称遮罩的视频自编码器和资源友好的 ConvNets，以及一种称为 MVM 的简单而有效的遮罩视频建模方法，通过在下游任务中的表现超过了基于 ViT 的方法。

Feb, 2024

HiCMAE：用于自监督音频 - 视觉情感识别的层次对比遮蔽自编码器

提出了一种基于自监督学习的 Hierarchical Contrastive Masked Autoencoder（HiCMAE）框架，通过大规模的自监督预训练提升了音视频情感识别的性能，实验证明 HiCMAE 方法在多个数据集上显著优于现有的有监督和自监督音视频方法。

Jan, 2024

MV2MAE：多视角视频掩码自编码器

从多视角捕获的视频可以帮助感知世界的 3D 结构，并对计算机视觉任务，如动作识别、跟踪等产生影响。本文介绍了一种从同步多视角视频中进行自监督学习的方法，通过交叉视角重构任务向模型注入几何信息。我们的方法基于掩码自编码器（MAE）框架，在同视角解码器的基础上，引入了一个独立的交叉视角解码器，利用交叉注意机制从源视角视频重构目标视角视频，以获得对视角变化具有鲁棒性的表示。针对视频，静态区域可以简单地进行重构，这限制了学习有意义表示的能力。为此，我们引入了一种动态加权重构损失来改进时间建模。我们在 NTU-60、NTU-120 和 ETRI 数据集上报告了最先进的结果，并在 NUCLA、PKU-MMD-II 和 ROCOG-v2 数据集上进行了迁移学习设置，证明了我们方法的鲁棒性。我们将提供代码。

Jan, 2024

听觉遮盖自编码器

本文研究了基于图像的 Masked Autoencoder（MAE）的简单扩展，用于从音频频谱图进行自监督表示学习，并提出了 Audio-MAE 模型，该模型利用 Transformer 编码器 - 解码器设计，使用高掩蔽率编码音频频谱图，通过仅馈送非遮蔽记号通过编码器层，解码器则重新组织和解码编码器产生的上下文，以重构输入谱图。在六个音频和语音分类任务中，Audio-MAE 都表现出最先进的性能，超过了使用外部监督预训练的其他最新模型.

Jul, 2022

VideoMAE V2: 基于双重蒙版的视频自编码器扩展

本文介绍了使用视频掩码自编码器（VideoMAE）进行可扩展和一般自监督预训练，用于构建视频基础模型和在各种下游任务中取得新的最先进表现的新方法。

Mar, 2023

SurgMAE：用于长时间手术视频分析的遮蔽自编码器

提出一种基于采样高时空令牌的创新 MAE 架构 SurgMAE，应用于手术视频领域的自监督学习，证明了该方法在低数据量条件下的有效性及其在非手术数据集 UCF-101 上的泛化性能优越性。

May, 2023

具有稳健遗忘机制的生命周期音视频屏蔽自编码器与局部对齐

我们提出了一种终身音视频遮罩自编码器，它能够在分布随时间不断变化的视频流中持续学习多模态表示。具体而言，我们提出了两个创新点来解决这个问题：（1）局部对齐：我们引入了一个小型可训练的多模态编码器，用于预测彼此相互对齐的音频和视频令牌。这使得模型只学习具有准确多模态关系的高度相关的音视频补丁。（2）忘却鲁棒多模态补丁选择：我们比较当前数据对之间每个音视频补丁的相对重要性，以减轻先前学习的音视频表示的意外漂移。因此，我们提出的方法 FLAVA 在一系列预训练任务上训练期间捕捉音频和视频模态之间的复杂关系，并减轻了已学习音视频相关性的遗忘。我们的实验证实了 FLAVA 在持续音视频表示学习场景下的几个基准数据集上优于现有的持续学习方法。

Oct, 2023