May, 2023

面向音视频语音情感识别的向量量化掩码自编码器

TL;DR本研究提出了一种基于矢量量化和自监督学习的 MAE 模型,对语音情感识别领域中标注数据不足的问题提出了一个潜在的解决方案,实验证明该模型在基于 VoxCeleb2 数据库进行预训练并在标准情感音频视觉语音数据集上进行微调后,表现优于现有的音频视觉 SER 方法。