May, 2024

将 WavLM 应用于语音情感识别

TL;DR最近,人们对语音自我监督模型(SSL)在下游任务中的使用越来越关注。在大规模预训练模型通常优于从头开始训练的较小模型的情况下,人们对最佳微调策略的问题仍然很普遍。本文中,我们探讨了 WavLM Large 模型在 MSP Podcast Corpus 的语音情感识别任务中的微调策略。具体而言,我们进行了一系列实验,重点研究了来自话语中的性别和语义信息的使用。然后,我们总结了我们的发现,并描述了我们用于提交 Speech Emotion Recognition Challenge 2024 的最终模型。