SER_AMPEL: 一个用于意大利老年人 SER 的多源数据集
本文旨在定义一个语音情感识别(SER)模型,能够在自然会话中识别意大利老年人的积极、中性和消极情绪。通过合并英语数据集和意大利语数据集并采用 XGBoost 模型训练,提出了一种适用于多个语种和多个年龄段的通用模型,并提出两种领域自适应策略来使模型适应老年人和意大利人。结果表明,这种方法提高了分类性能,同时也强调了需要收集新的数据集。
Nov, 2022
本文针对低资源语言,提出了一种语言特定的多预训练语音模型情感信息提取方法,设计了一种多领域模型,采用多门机制,并通过神经网络结构搜索模块为每种语言寻找特定的神经网络结构,并引入对比辅助损失来构建更可分离的音频数据表示。实验表明,该模型为德语和法语提高了 3%和 14.3%的准确率。
Oct, 2022
使用来自西班牙 100 位说话者之间的即兴语音消息的情感数据集(EMOVOME 数据库),利用 eGeMAPS 特征、基于 Transformer 的模型及其组合,创建了基于说话者的独立 SER 模型,对连续和离散情感进行标注,并比较参考数据库的结果,并分析注释者和性别公平性的影响。使用预训练的 Unispeech-L 模型及其与 eGeMAPS 的组合取得了最高的结果,对于 3 类情感价值和唤醒度的预测,分别达到了 61.64% 和 55.57% 的非加权准确率(UA),相比基线模型提高了 10%。对于情感类别,获得了 42.58% 的 UA。EMOVOME 在情感类别的预测上不及被操纵的 RAVDESS 数据库,在情感价值和唤醒度方面与被引发的 IEMOCAP 数据库效果相似。此外,EMOVOME 的结果随着注释者标签的变化而变化,当结合专家和非专家的注释时,表现出更好的结果和更好的公平性。该研究在评估 SER 模型在现实生活中的应用方面做出了重要贡献,推动了用于分析即兴语音消息的应用程序的开发。
Mar, 2024
本文通过使用自动语音识别系统,研究了来自波斯语文本语料库的 Farsi 语言模型对 Sharif 情感语音数据库(ShEMO)中不一致性的修复作用,并介绍了一种基于波斯语 / Farsi 语音识别的 SER 系统,该系统使用 ASR 输出的语言特征和基于深度学习的模型。
Nov, 2022
通过在自然会话中引入词级 VAD 值,本研究在 Natural Speech Emotion Dataset(NSED)上将负面情绪的 SER 任务的准确率相比基准值提高了 2%,这对于业务利益至关重要,可以帮助开发更礼貌和有同理心的对话代理程序。
Aug, 2023
本文介绍了 Amharic 语言情感识别数据集(ASED),并使用 MFCC 特征和 VGGb 模型进行实验,结果表明在不同的训练模式下 MFCC 特征的效果优于 Mel-spectrogram 特征。由于 VGGb 在 ASED 数据集上的表现优异,同时在训练时间最短,本文提出该模型可成功用于其他语言的情感识别任务。
Jan, 2022