希腊戏剧演出中语音情感识别数据集

Mar, 2022

希腊戏剧演出中语音情感识别数据集

A Dataset for Speech Emotion Recognition in Greek Theatrical Plays

Maria Moutti, Sofia Eleftheriou, Panagiotis Koromilas, Theodoros Giannakopoulos

TL;DR本研究介绍了一个新的，用于识别希腊话剧中情感的公共数据集 GreThE，并通过各种机器和深度学习框架以及一些在情感识别领域中广泛使用的数据库的实验结果来讨论该分类技术。通过在希腊话剧中获取多个讲话记录并进行多人注释，最终生成了真实情感分类数据。

Abstract

machine learning methodologies can be adopted in cultural applications and propose new ways to distribute or even present the cultural content to the public. For instance, →

machine learning cultural applications speech analytics speech-to-text transcription speech emotion recognition

发现论文，激发创造

情感分类分析希腊议会记录

本研究旨在为希腊语言提供情感分类，通过使用单语和多语言资源进行微调和评估 Transformers 模型，并通过在希腊议会记录中检测及研究 “厌恶” 情感，探讨了这些模型的潜力以及对使用用于污名化人的词语的情感背景转换进行了研究。

May, 2022

一个新的阿姆哈拉语言语音情感数据集和分类基准

本文介绍了 Amharic 语言情感识别数据集（ASED），并使用 MFCC 特征和 VGGb 模型进行实验，结果表明在不同的训练模式下 MFCC 特征的效果优于 Mel-spectrogram 特征。由于 VGGb 在 ASED 数据集上的表现优异，同时在训练时间最短，本文提出该模型可成功用于其他语言的情感识别任务。

Jan, 2022

多门机制与神经架构搜索的多语言语音情感识别

本文针对低资源语言，提出了一种语言特定的多预训练语音模型情感信息提取方法，设计了一种多领域模型，采用多门机制，并通过神经网络结构搜索模块为每种语言寻找特定的神经网络结构，并引入对比辅助损失来构建更可分离的音频数据表示。实验表明，该模型为德语和法语提高了 3％和 14.3％的准确率。

Oct, 2022

情感导向的自动语音识别预训练，增强语音情感识别

提出了一种新颖的多任务预训练方法，用于语音情感识别，在同时进行自动语音识别和情感分类任务的情况下对 SER 模型进行预训练，生成目标情感分类的方法，通过公开数据训练的文本情感模型，将声学 ASR 模型更加 “情感感知”，最终在情感注释语音数据上进行了微调，达到了 MSP-Podcast 数据集中价值预测最佳的一致性相关系数（CCC）0.41。

Jan, 2022

使用不平衡的语音数据学习情感表示，用于语音情感识别和情感文本转语音

本研究提出情感抽取器解决了在语音情感识别和情感语音合成等任务中因数据集不平衡带来的问题，并采用数据增强方法训练模型以提取出通用有效的语音情感表征，为情感语音合成任务提供更具表现力的语音。

Jun, 2023

利用跨领域语音情感识别协助，使用无标记情感数据集进行情感可控语音合成

本文提出了一种新颖的情感文本转语音合成方法，通过跨域语音情感识别模型和情感文本转语音模型进行联合训练，从而在不需要情感标签的 TTS 数据集上生成具有情感表现力的语音，并且几乎不影响其语音质量。

Oct, 2020

语音与文本情感识别器

情感计算是一门研究领域，专注于开发能够理解、解释和响应人类情感的系统和技术。本研究主要针对公开可用的情感标签数据集稀缺和不平衡的问题，通过合并这些数据集以及采用各种语音数据增强技术构建了一个均衡的语料库，并在语音情感识别方面尝试了不同的架构。最佳系统是一个多模态的语音和基于文本的模型，相对于基准算法的性能为 157.57（不加权准确度 + 加权准确度），而基准算法的性能为 119.66。

Dec, 2023

EMOVIE：一种普通话情感语音数据集及其简单情感文本转语音模型

本篇论文提供了包括 9,724 个样本的情感语音数据集，并提出了一种名为 EMSpeech 的情感语音合成模型，该模型无需参考音频即可从文本预测情感标签并生成更富表现力的语音。在实验中，作者验证了数据集的有效性，证明了该模型在情感语音合成任务中取得了显著性能。

Jun, 2021

使用深度神经网络进行波斯语音情感识别

本研究利用各种深度学习和机器学习技术，通过对一个 Farsi/Persian 数据集的分析，研究了 Farsi 语言中的情感识别技术，取得了 65.20% 的 UA 和 78.29% 的 WA。

Apr, 2022

基于波斯语 ASR 的 SER：修改 Sharif 情感语音数据库并研究波斯文本语料库

本文通过使用自动语音识别系统，研究了来自波斯语文本语料库的 Farsi 语言模型对 Sharif 情感语音数据库（ShEMO）中不一致性的修复作用，并介绍了一种基于波斯语 / Farsi 语音识别的 SER 系统，该系统使用 ASR 输出的语言特征和基于深度学习的模型。

Nov, 2022