Sep, 2023

通过提炼韵律和语言情感表达的语音情感识别

TL;DREmoDistill 是一个新颖的语音情感识别(SER)框架,利用跨模态知识蒸馏在训练期间从语音中学习强大的语言和韵律情感表示。在推断过程中,我们的方法仅使用一系列语音信号执行单模态 SER,从而减少计算开销并避免运行时转录和韵律特征提取错误。在 IEMOCAP 基准上的实验证明,我们的方法以相当大的优势胜过其他单模态和多模态技术,并实现了 77.49%的非加权准确率和 78.91%的加权准确率。详细的消融研究展示了我们方法的每个组成部分的影响。