Dec, 2023

在语音情感识别中使用谐振和打击成分的杠杆化 Mel 频谱图

TL;DR该研究通过对 Mel 谱图的谐波和打击性组成部分进行分析,提出了一个新的架构,包括特征映射生成器算法、基于 CNN 的网络特征提取器和多层感知器(MLP)分类器,研究有效的数据增强技术建立了丰富的混合特征映射,最终在 Berlin EMO-DB 数据库上取得了 92.79% 的测试准确率,结果优于之前使用 CNN-VGG16 的研究。