Jul, 2023

使用深度学习框架评估语音情感识别的原始波形

TL;DR通过直接利用六个不同数据集的原始音频文件进行训练,本研究提出了一种模型用于识别情感,没有进行特征提取阶段。该模型通过支持向量机、决策树、朴素贝叶斯、随机森林等机器学习算法,以及集成学习和深度学习技术进行评估,并与现有的方法进行比较。实验证明,使用原始音频文件的 CNN 模型在 TESS+RAVDESS 数据集上取得了 95.86% 的准确率,从而成为了新的最先进方法。在说话人无关的音频分类问题中,该模型在 EMO-DB,RAVDESS,TESS 和 SAVEE 数据集上分别取得了 90.34%,90.42%,99.48% 和 85.76% 的准确率。