EmoBox: 跨语言多语料库语音情感识别工具箱与基准
使用八种语音表示模型和六种不同语言,该研究首次全面评估了基于 Transformer 的语音表示模型在跨多种语言的语音情感识别中的性能,并通过探索性实验揭示了这些模型的内部表征。实验结果表明,相较于使用所有层的语音模型特征的系统,仅使用语音模型最优层的特征平均降低了 7 个数据集上的错误率 32%。此外,还在德语和波斯语的语音情感识别方面取得了最新的成果,探测结果表明中间层的语音模型对于捕捉最重要的情感信息至关重要。
Aug, 2023
本文针对低资源语言,提出了一种语言特定的多预训练语音模型情感信息提取方法,设计了一种多领域模型,采用多门机制,并通过神经网络结构搜索模块为每种语言寻找特定的神经网络结构,并引入对比辅助损失来构建更可分离的音频数据表示。实验表明,该模型为德语和法语提高了 3%和 14.3%的准确率。
Oct, 2022
重新回顾评估深度学习模型在语音情感识别研究中的最新进展,表明尽管取得了一些进步,FAU-AIBO 仍然是一个具有挑战性的基准,而新的方法并不一致地优于旧的方法,显示解决语音情感识别问题的进展不一定是单调的。
Jun, 2024
本文通过使用自动语音识别系统,研究了来自波斯语文本语料库的 Farsi 语言模型对 Sharif 情感语音数据库(ShEMO)中不一致性的修复作用,并介绍了一种基于波斯语 / Farsi 语音识别的 SER 系统,该系统使用 ASR 输出的语言特征和基于深度学习的模型。
Nov, 2022
提出了一种新颖的多任务预训练方法,用于语音情感识别,在同时进行自动语音识别和情感分类任务的情况下对 SER 模型进行预训练,生成目标情感分类的方法,通过公开数据训练的文本情感模型,将声学 ASR 模型更加 “情感感知”,最终在情感注释语音数据上进行了微调,达到了 MSP-Podcast 数据集中价值预测最佳的一致性相关系数(CCC)0.41。
Jan, 2022
EmoDistill 是一个新颖的语音情感识别(SER)框架,利用跨模态知识蒸馏在训练期间从语音中学习强大的语言和韵律情感表示。在推断过程中,我们的方法仅使用一系列语音信号执行单模态 SER,从而减少计算开销并避免运行时转录和韵律特征提取错误。在 IEMOCAP 基准上的实验证明,我们的方法以相当大的优势胜过其他单模态和多模态技术,并实现了 77.49%的非加权准确率和 78.91%的加权准确率。详细的消融研究展示了我们方法的每个组成部分的影响。
Sep, 2023