Jan, 2022

情感导向的自动语音识别预训练,增强语音情感识别

TL;DR提出了一种新颖的多任务预训练方法,用于语音情感识别,在同时进行自动语音识别和情感分类任务的情况下对 SER 模型进行预训练,生成目标情感分类的方法,通过公开数据训练的文本情感模型,将声学 ASR 模型更加 “情感感知”,最终在情感注释语音数据上进行了微调,达到了 MSP-Podcast 数据集中价值预测最佳的一致性相关系数(CCC)0.41。