Mar, 2024

利用时间频率相关性和位置信息学习通过知识迁移增强情感辨识中基于谱图的准确度方法

TL;DR本研究提出一种通过使用视觉转换器(ViT)关注频谱图中频率(y 轴)与时间(x 轴)之间的关联以及通过知识传递在 ViT 之间进行位置信息的传递的方法,从而提高语音情感识别(SER)的准确性,并通过验证实验结果表明,该方法在加权准确性和浮点运算次数(FLOPs)方面显著优于现有方法,同时提供了高效性和性能改进的有希望的解决方案。