EmoGator: 一份新的开源语音爆发数据集及基准机器学习分类方法
本篇论文提供了包括 9,724 个样本的情感语音数据集,并提出了一种名为 EMSpeech 的情感语音合成模型,该模型无需参考音频即可从文本预测情感标签并生成更富表现力的语音。在实验中,作者验证了数据集的有效性,证明了该模型在情感语音合成任务中取得了显著性能。
Jun, 2021
介绍了 GoEmotions,这是目前最大的手动标注的数据集之一,其中包含 58k 英文 Reddit 评论,并将其标记为 27 种情感类别或中性。通过传递学习实验,证明了该数据集具有良好的泛化性能,BERT-based 情感检测模型取得了.46 的平均 F1 分数。
May, 2020
通过对 DepressionEmo 数据集进行情感、时间分布和语言分析,并使用文本分类方法,特别是 BERT 模型,研究表明该数据集在通过文本分析来识别抑郁症患者的情感上具有一定的价值,其中自杀意图情感所达到的最高 F1-Macro 值表明了这一点。
Jan, 2024
本文介绍 ACII 情感语音爆发赛事和四个任务,分别为 A-VB-High, A-VB-Two, A-VB-Culture, A-VB-Type,使用机器学习方法对情感识别进行建模与训练,并在大规模数据集上进行了基准测试。
Jul, 2022
在音频和语音分析领域,从声音信号中识别情绪是关键的。我们介绍了 BanSpEmo,这是一个仅包含音频录音的情感语音语料库,专门用于孟加拉语。该语料库包含 792 个音频录音,持续时间超过 1 小时 23 分钟。22 名本地说话者参与了两组代表六种期望情绪的句子录制。该数据集由 12 个孟加拉语句子组成,以 6 种情绪(厌恶、快乐、悲伤、惊讶、愤怒和恐惧)进行表达。BanSpEmo 是一个有用的资源,可以促进孟加拉语情绪和语音识别研究以及相关应用的发展。该数据集可在此处找到:此 https 网址,并可用于学术研究。
Dec, 2023
本文介绍了我们提出的多模态心情表达数据集,其中使用分层注释策略进行情感表达识别。使用自然连续的方式对 YouTube 视频进行收集,以构建一个公平标准的深度和递归神经模型实验协议。
Mar, 2018
EMOVOME 是一个包含 999 条语音信息的数据集,来自 100 位西班牙使用者在即时消息应用上的真实对话,具有性别平衡。该数据集为野外环境下的情感表达提供了基线,包括语音特征和文字特征的情感识别模型的准确率评估。该资源对于野外情感识别的研究和西班牙语的自然、免费资源提供了重要贡献。
Feb, 2024
提出了一种创新的数据驱动技术,通过将一组无表情的 3D 说话头与一组 3D 表情序列相结合,创建了一个合成数据集 EmoVOCA,再使用该数据集设计和训练了一个情感 3D 说话头生成器,通过接受 3D 面部、音频文件、情感标签和强度值作为输入,并学习将音频同步的唇部动作与面部的表情特征相结合,实验结果证明了该方法在合成逼真动画方面的优势。
Mar, 2024
介绍了一个超过 7000 个波斯语句子的人工标注情感数据集 ——ArmanEmo,该数据集基于 Ekman 的六种基本情感和 “其他” 类别标注,同时提供了基于现代语言模型的情感分类基线模型。实验结果表明,该数据集具有超越现有波斯语情感数据集的更好泛化能力。
Jul, 2022
本文介绍了 ICML Expressive Vocalization (ExVo) 比赛,涵盖三个竞赛项目,利用大规模数据集进行基于多任务模型、生成模型和少样本学习的声音情绪识别。使用最先进的机器学习策略,提供各种竞赛项目的基本性能评估。
May, 2022