用于语音情感识别的矢量量化掩码自编码器

Apr, 2023

用于语音情感识别的矢量量化掩码自编码器

A vector quantized masked autoencoder for speech emotion recognition

Samir Sadok, Simon Leglaive, Renaud Séguier

TL;DR本文介绍了使用自监督学习方法的矢量量化掩模自动编码器模型 VQ-MAE-S，该模型基于离散空间的向量量化变分自动编码器中的掩模自动编码器（MAE）对语音信号中的情感进行识别。在 VoxCeleb2 数据集的预训练和情感性语音数据的微调下，该模型在语音情感识别方面比使用原始频谱图的 MAE 和其他先进方法表现更好。

Abstract

Recent years have seen remarkable progress in speech emotion recognition (SER), thanks to advances in deep learning techniques. However, the limited availability of labeled data remains a significant challenge in

speech emotion recognition self-supervised learning deep learning vector quantized masked autoencoder voxceleb2 dataset

发现论文，激发创造

面向音视频语音情感识别的向量量化掩码自编码器

本研究提出了一种基于矢量量化和自监督学习的 MAE 模型，对语音情感识别领域中标注数据不足的问题提出了一个潜在的解决方案，实验证明该模型在基于 VoxCeleb2 数据库进行预训练并在标准情感音频视觉语音数据集上进行微调后，表现优于现有的音频视觉 SER 方法。

May, 2023

仅使用清晰语音的自监督语音质量估计和增强

提出了一种基于自编码器的自监督度量方法（VQScore），用于评估语音质量，并结合领域知识进行模型设计，同时训练自主语音增强模型以改进编码器的鲁棒性。实验结果表明，该方法和增强模型与有监督基线模型具有竞争力。

Feb, 2024

多任务半监督对抗自编码器用于语音情感识别

本文提出一种基于多任务学习的框架，通过利用大量的性别分类数据和说话人识别数据，结合采用对抗自编码器（AAE）进行半监督学习的方法，提高语音情感识别的性能，实现更高水平的情感识别表现。

Jul, 2019

变分自编码器用于学习语音情感的潜在表示：初步研究

该研究提出对于语音情感识别任务，在深度生成模型 VAE 的启发下，使用 VAEs 学习语音信号的潜在表征，并使用这种表征来分类情感，证明通过 VAEs 学习到的特征可产生情感分类的最佳结果。

Dec, 2017

听觉遮盖自编码器

本文研究了基于图像的 Masked Autoencoder（MAE）的简单扩展，用于从音频频谱图进行自监督表示学习，并提出了 Audio-MAE 模型，该模型利用 Transformer 编码器 - 解码器设计，使用高掩蔽率编码音频频谱图，通过仅馈送非遮蔽记号通过编码器层，解码器则重新组织和解码编码器产生的上下文，以重构输入谱图。在六个音频和语音分类任务中，Audio-MAE 都表现出最先进的性能，超过了使用外部监督预训练的其他最新模型.

Jul, 2022

SurgMAE：用于长时间手术视频分析的遮蔽自编码器

提出一种基于采样高时空令牌的创新 MAE 架构 SurgMAE，应用于手术视频领域的自监督学习，证明了该方法在低数据量条件下的有效性及其在非手术数据集 UCF-101 上的泛化性能优越性。

May, 2023

多模态掩蔽自编码器用于动态情绪识别

本文提出了一种名为多模态蒙特卡洛自动编码器（MultiMAE-DER）的处理多模态数据用于动态情感识别的新方法。MultiMAE-DER 利用视觉和音频模态之间的时空序列中紧密相关的表示信息。通过利用预训练的蒙特卡洛自动编码器模型，通过简单直接的微调实现 MultiMAE-DER。该方法通过优化六种多模态输入序列融合策略来提高 MultiMAE-DER 的性能，解决了跨域数据中的动态特征相关性问题。与现有的多模态监督学习模型相比，MultiMAE-DER 在 RAVDESS 数据集上的加权平均召回率（WAR）提高了 4.41％，在 CREMAD 上提高了 2.06％。此外，与多模态自监督学习的最新模型相比，MultiMAE-DER 在 IEMOCAP 数据集上的 WAR 提高了 1.86％。

Apr, 2024

基于遮挡自编码器的视频无监督预训练技术

本文研究了使用 VideoMAE 进行自主监督视频预训练 (SSVP) 的数据高效性问题，并通过适当的视频屏蔽达到了良好的表现，进而证明数据质量对 SSVP 更加重要。

Mar, 2022

对比音视频掩码自编码器

本文提出了 CAV-MAE 模型，它将 Masked Auto-Encoder (MAE) 模型从单模态扩展到音频 - 视觉多模态，并结合自监督学习框架中的对比学习和蒙版数据建模两种方法，学习联合和协调的音频 - 视觉表示，并在 VGGSound 数据集中取得了新的 SOTA 准确性，达到了 65.9%。

Oct, 2022

神经离散表征学习

本文提出了一种简单而强大的生成模型，学习离散表示，可以生成高质量的图像、视频和语音，同时进行说话人转换和音素无监督学习。

Nov, 2017