希腊戏剧演出中语音情感识别数据集
本研究旨在为希腊语言提供情感分类,通过使用单语和多语言资源进行微调和评估 Transformers 模型,并通过在希腊议会记录中检测及研究 “厌恶” 情感,探讨了这些模型的潜力以及对使用用于污名化人的词语的情感背景转换进行了研究。
May, 2022
本文介绍了 Amharic 语言情感识别数据集(ASED),并使用 MFCC 特征和 VGGb 模型进行实验,结果表明在不同的训练模式下 MFCC 特征的效果优于 Mel-spectrogram 特征。由于 VGGb 在 ASED 数据集上的表现优异,同时在训练时间最短,本文提出该模型可成功用于其他语言的情感识别任务。
Jan, 2022
本文针对低资源语言,提出了一种语言特定的多预训练语音模型情感信息提取方法,设计了一种多领域模型,采用多门机制,并通过神经网络结构搜索模块为每种语言寻找特定的神经网络结构,并引入对比辅助损失来构建更可分离的音频数据表示。实验表明,该模型为德语和法语提高了 3%和 14.3%的准确率。
Oct, 2022
提出了一种新颖的多任务预训练方法,用于语音情感识别,在同时进行自动语音识别和情感分类任务的情况下对 SER 模型进行预训练,生成目标情感分类的方法,通过公开数据训练的文本情感模型,将声学 ASR 模型更加 “情感感知”,最终在情感注释语音数据上进行了微调,达到了 MSP-Podcast 数据集中价值预测最佳的一致性相关系数(CCC)0.41。
Jan, 2022
本研究提出情感抽取器解决了在语音情感识别和情感语音合成等任务中因数据集不平衡带来的问题,并采用数据增强方法训练模型以提取出通用有效的语音情感表征,为情感语音合成任务提供更具表现力的语音。
Jun, 2023
本文提出了一种新颖的情感文本转语音合成方法,通过跨域语音情感识别模型和情感文本转语音模型进行联合训练,从而在不需要情感标签的 TTS 数据集上生成具有情感表现力的语音,并且几乎不影响其语音质量。
Oct, 2020
情感计算是一门研究领域,专注于开发能够理解、解释和响应人类情感的系统和技术。本研究主要针对公开可用的情感标签数据集稀缺和不平衡的问题,通过合并这些数据集以及采用各种语音数据增强技术构建了一个均衡的语料库,并在语音情感识别方面尝试了不同的架构。最佳系统是一个多模态的语音和基于文本的模型,相对于基准算法的性能为 157.57(不加权准确度 + 加权准确度),而基准算法的性能为 119.66。
Dec, 2023
本篇论文提供了包括 9,724 个样本的情感语音数据集,并提出了一种名为 EMSpeech 的情感语音合成模型,该模型无需参考音频即可从文本预测情感标签并生成更富表现力的语音。在实验中,作者验证了数据集的有效性,证明了该模型在情感语音合成任务中取得了显著性能。
Jun, 2021
本研究利用各种深度学习和机器学习技术,通过对一个 Farsi/Persian 数据集的分析,研究了 Farsi 语言中的情感识别技术,取得了 65.20% 的 UA 和 78.29% 的 WA。
Apr, 2022
本文通过使用自动语音识别系统,研究了来自波斯语文本语料库的 Farsi 语言模型对 Sharif 情感语音数据库(ShEMO)中不一致性的修复作用,并介绍了一种基于波斯语 / Farsi 语音识别的 SER 系统,该系统使用 ASR 输出的语言特征和基于深度学习的模型。
Nov, 2022