面向音视频语音情感识别的向量量化掩码自编码器

May, 2023

面向音视频语音情感识别的向量量化掩码自编码器

A vector quantized masked autoencoder for audiovisual speech emotion recognition

Samir Sadok, Simon Leglaive, Renaud Séguier

TL;DR本研究提出了一种基于矢量量化和自监督学习的 MAE 模型，对语音情感识别领域中标注数据不足的问题提出了一个潜在的解决方案，实验证明该模型在基于 VoxCeleb2 数据库进行预训练并在标准情感音频视觉语音数据集上进行微调后，表现优于现有的音频视觉 SER 方法。

Abstract

While fully-supervised models have been shown to be effective for audiovisual speech emotion recognition (SER), the limited availability of labeled data remains a major challenge in the field. To address this issue, self-supervised learning approaches, such as masked autoencoders (MAEs

audiovisual speech emotion recognition self-supervised learning masked autoencoders vector quantization pre-training

发现论文，激发创造

用于语音情感识别的矢量量化掩码自编码器

本文介绍了使用自监督学习方法的矢量量化掩模自动编码器模型 VQ-MAE-S，该模型基于离散空间的向量量化变分自动编码器中的掩模自动编码器（MAE）对语音信号中的情感进行识别。在 VoxCeleb2 数据集的预训练和情感性语音数据的微调下，该模型在语音情感识别方面比使用原始频谱图的 MAE 和其他先进方法表现更好。

Apr, 2023

对比音视频掩码自编码器

本文提出了 CAV-MAE 模型，它将 Masked Auto-Encoder (MAE) 模型从单模态扩展到音频 - 视觉多模态，并结合自监督学习框架中的对比学习和蒙版数据建模两种方法，学习联合和协调的音频 - 视觉表示，并在 VGGSound 数据集中取得了新的 SOTA 准确性，达到了 65.9%。

Oct, 2022

HiCMAE：用于自监督音频 - 视觉情感识别的层次对比遮蔽自编码器

提出了一种基于自监督学习的 Hierarchical Contrastive Masked Autoencoder（HiCMAE）框架，通过大规模的自监督预训练提升了音视频情感识别的性能，实验证明 HiCMAE 方法在多个数据集上显著优于现有的有监督和自监督音视频方法。

Jan, 2024

基于遮挡自编码器的视频无监督预训练技术

本文研究了使用 VideoMAE 进行自主监督视频预训练 (SSVP) 的数据高效性问题，并通过适当的视频屏蔽达到了良好的表现，进而证明数据质量对 SSVP 更加重要。

Mar, 2022

AV-MaskEnhancer：通过音频 - 视觉蒙版自编码器增强视频表达

通过结合视听信息，我们提出了 AV-MaskEnhancer 方法来学习高质量的视频表示，解决了从低分辨率和模糊的原始视频中提取特征的挑战，并在 UCF101 数据集上的视频分类任务中取得了 98.8% 的 top-1 准确率和 99.9% 的 top-5 准确率，超越了现有工作并达到了最先进水平。

Sep, 2023

听觉遮盖自编码器

本文研究了基于图像的 Masked Autoencoder（MAE）的简单扩展，用于从音频频谱图进行自监督表示学习，并提出了 Audio-MAE 模型，该模型利用 Transformer 编码器 - 解码器设计，使用高掩蔽率编码音频频谱图，通过仅馈送非遮蔽记号通过编码器层，解码器则重新组织和解码编码器产生的上下文，以重构输入谱图。在六个音频和语音分类任务中，Audio-MAE 都表现出最先进的性能，超过了使用外部监督预训练的其他最新模型.

Jul, 2022

SurgMAE：用于长时间手术视频分析的遮蔽自编码器

提出一种基于采样高时空令牌的创新 MAE 架构 SurgMAE，应用于手术视频领域的自监督学习，证明了该方法在低数据量条件下的有效性及其在非手术数据集 UCF-101 上的泛化性能优越性。

May, 2023

基于注意力引导的蒙版自动编码器用于学习图像表示

利用注重对象的重建过程来指导复原能力的建议，通过在损失函数中利用场景的注意力图获取的注意力图，提供更多的重建相关对象的强调，从而激励模型学习更加注重对象的表示，同时通过改进的线性探测和 k-NN 分类在几个基准测试中展示出我们预训练模型具有更好的潜在表示能力，同时使 ViTs 对不同背景更加稳健。

Feb, 2024

遮蔽自编码器是可扩展的视觉学习器

本文展示掩码自动编码器 (MAE) 是可扩展的自监督计算机视觉学习器，通过实现以两种核心设计为基础的 MAE 方法：一种不对遮罩令牌进行编码的编码器和一种从潜在表示和遮罩令牌中重建原始图像的轻量级解码器，并使用更高比例的保持训练图片完整性的遮罩令牌，同时能够提高训练精度和加速计算。本方法能够训练大型高容量模型，并 Transfer Learning 具有出色的性能。

Nov, 2021

如何理解掩蔽自编码器

本文第一次提出了一种统一的理论框架，用数学方法解释 MAE 的强大表现，说明其基于补丁的注意力方法，并使用操作符理论阐明了 MAE 成功的主要原因。

Feb, 2022