Oct, 2023

利用声学特性引导音频的情感表示

TL;DR通过使用自然语言描述和基于声学特性的提示来更好地表示情绪的表达,我们提出了一种方法来自动生成这些提示并训练模型从音频和提示的组合中更好地学习情绪表示。使用声调、强度、说话速度和发音速度等与情绪相关的声学特性自动生成 ' 声学提示 ',通过对比学习目标将语音映射到相应的声学提示。我们在情绪音频检索和语音情绪识别上评估了我们的模型。结果表明,声学提示显著改善了模型在 EAR 中的性能,特别是在各种 Precision@K 指标上。在 Ravdess 数据集上,我们观察到 SER 的相对准确率提高了 3.8%。