May, 2023
利用语义信息和音频文本蒸馏模型实现高效的自监督情绪识别
Leveraging Semantic Information for Efficient Self-Supervised Emotion Recognition with Audio-Textual Distilled Models
Danilo de Oliveira, Navin Raj Prabhu, Timo Gerkmann
TL;DR本文旨在将 HuBERT 等 self-supervised learning 的模型应用在 SER 系统中,并通过分析模型的每一层得出更好的情感识别效果,提出基于 audio-textual distilled SSL 的模型实现更为高效的情感识别。