Jan, 2022
情感导向的自动语音识别预训练,增强语音情感识别
Sentiment-Aware Automatic Speech Recognition pre-training for enhanced
Speech Emotion Recognition
TL;DR提出了一种新颖的多任务预训练方法,用于语音情感识别,在同时进行自动语音识别和情感分类任务的情况下对SER模型进行预训练,生成目标情感分类的方法,通过公开数据训练的文本情感模型,将声学ASR模型更加“情感感知”,最终在情感注释语音数据上进行了微调,达到了MSP-Podcast数据集中价值预测最佳的一致性相关系数(CCC)0.41。