Apr, 2023

用于语音情感识别的矢量量化掩码自编码器

TL;DR本文介绍了使用自监督学习方法的矢量量化掩模自动编码器模型 VQ-MAE-S,该模型基于离散空间的 向量量化变分自动编码器 中的掩模自动编码器(MAE)对语音信号中的情感进行识别。在 VoxCeleb2 数据集的 预训练 和情感性语音数据的 微调下,该模型在语音情感识别方面比使用原始频谱图的 MAE 和其他先进方法表现更好。