Jul, 2023

Vesper:一种紧凑高效的预训练语音情感识别模型

TL;DR本文介绍了一种范式,将通用的大规模预训练模型(PTMs)应用于语音情绪识别任务。我们提出了一种改进的情绪特定预训练编码器 Vesper,它在 WavLM 数据库上进行了预训练,并考虑了情绪特征,通过情绪引导的掩码策略和分层交叉自监督来提高对情绪信息的敏感性,实验证明 Vesper 比 WavLM 在多个数据集上的性能更好。