One persistent challenge in deep learning based speech emotion recognition
(SER) is the unconscious encoding of emotion-irrelevant factors (e.g., speaker
or phonetic variability), which limits the generalization
本文介绍了一种基于自上而下加自下而上架构范式的端到端情感识别系统,构建了基于自我监督特征的情感识别实验,并研究了自我监督特征模型的微调、特征的聚合和后端分类网络之间的相互作用等领域。该单模只有语音的系统不仅取得了 SOTA 结果,而且也揭示了强大且经过精细调整的自我监督声学特征的可能性,使其达到类似于同时使用语音和文本模态的 SOTA 多模态系统所达到的结果。