Mar, 2024

野外录制的语音信息中的语音情感识别

TL;DR使用来自西班牙 100 位说话者之间的即兴语音消息的情感数据集(EMOVOME 数据库),利用 eGeMAPS 特征、基于 Transformer 的模型及其组合,创建了基于说话者的独立 SER 模型,对连续和离散情感进行标注,并比较参考数据库的结果,并分析注释者和性别公平性的影响。使用预训练的 Unispeech-L 模型及其与 eGeMAPS 的组合取得了最高的结果,对于 3 类情感价值和唤醒度的预测,分别达到了 61.64% 和 55.57% 的非加权准确率(UA),相比基线模型提高了 10%。对于情感类别,获得了 42.58% 的 UA。EMOVOME 在情感类别的预测上不及被操纵的 RAVDESS 数据库,在情感价值和唤醒度方面与被引发的 IEMOCAP 数据库效果相似。此外,EMOVOME 的结果随着注释者标签的变化而变化,当结合专家和非专家的注释时,表现出更好的结果和更好的公平性。该研究在评估 SER 模型在现实生活中的应用方面做出了重要贡献,推动了用于分析即兴语音消息的应用程序的开发。