野外录制的语音信息中的语音情感识别

Mar, 2024

野外录制的语音信息中的语音情感识别

Speech emotion recognition from voice messages recorded in the wild

Lucía Gómez-Zaragozá, Óscar Valls, Rocío del Amor, María José Castro-Bleda, Valery Naranjo...

TL;DR使用来自西班牙 100 位说话者之间的即兴语音消息的情感数据集（EMOVOME 数据库），利用 eGeMAPS 特征、基于 Transformer 的模型及其组合，创建了基于说话者的独立 SER 模型，对连续和离散情感进行标注，并比较参考数据库的结果，并分析注释者和性别公平性的影响。使用预训练的 Unispeech-L 模型及其与 eGeMAPS 的组合取得了最高的结果，对于 3 类情感价值和唤醒度的预测，分别达到了 61.64% 和 55.57% 的非加权准确率（UA），相比基线模型提高了 10%。对于情感类别，获得了 42.58% 的 UA。EMOVOME 在情感类别的预测上不及被操纵的 RAVDESS 数据库，在情感价值和唤醒度方面与被引发的 IEMOCAP 数据库效果相似。此外，EMOVOME 的结果随着注释者标签的变化而变化，当结合专家和非专家的注释时，表现出更好的结果和更好的公平性。该研究在评估 SER 模型在现实生活中的应用方面做出了重要贡献，推动了用于分析即兴语音消息的应用程序的开发。

Abstract

emotion datasets used for speech emotion recognition (SER) often contain acted or elicited speech, limiting their applicability in real-world scenarios. In this work, we used the Emotional Voice Messages (EMOVOME

speech emotion recognition emotion datasets emovome database ser models spontaneous voice messages

发现论文，激发创造

情绪语音信息库 (EMOVOME): 自发语音信息中的情绪识别

EMOVOME 是一个包含 999 条语音信息的数据集，来自 100 位西班牙使用者在即时消息应用上的真实对话，具有性别平衡。该数据集为野外环境下的情感表达提供了基线，包括语音特征和文字特征的情感识别模型的准确率评估。该资源对于野外情感识别的研究和西班牙语的自然、免费资源提供了重要贡献。

Feb, 2024

设计与评估语音情感识别系统：IEMOCAP 的现实案例研究

本文旨在对使用 IEMOCAP 的情感语音识别研究进行批判性评审，并提出了情感语音识别的评估准则和可重复性评估方法。

Apr, 2023

EmoBox: 跨语言多语料库语音情感识别工具箱与基准

我们提出了 EmoBox，这是一个开箱即用的多语言多语料库语音情感识别工具包，并配备了用于内部和跨语料库设置的基准测试。

Jun, 2024

EMOVIE：一种普通话情感语音数据集及其简单情感文本转语音模型

本篇论文提供了包括 9,724 个样本的情感语音数据集，并提出了一种名为 EMSpeech 的情感语音合成模型，该模型无需参考音频即可从文本预测情感标签并生成更富表现力的语音。在实验中，作者验证了数据集的有效性，证明了该模型在情感语音合成任务中取得了显著性能。

Jun, 2021

基于语音的情感识别特征选择增强和特征空间可视化

本研究提出使用增强策略来提升语音情感识别的准确性，并使用两个数据集验证其有效性，比基准研究识别率分别提高了 11.5％和 13.8％。

Aug, 2022

使用自监督特征进行语音情感识别

本文介绍了一种基于自上而下加自下而上架构范式的端到端情感识别系统，构建了基于自我监督特征的情感识别实验，并研究了自我监督特征模型的微调、特征的聚合和后端分类网络之间的相互作用等领域。该单模只有语音的系统不仅取得了 SOTA 结果，而且也揭示了强大且经过精细调整的自我监督声学特征的可能性，使其达到类似于同时使用语音和文本模态的 SOTA 多模态系统所达到的结果。

Feb, 2022

通过提炼韵律和语言情感表达的语音情感识别

EmoDistill 是一个新颖的语音情感识别（SER）框架，利用跨模态知识蒸馏在训练期间从语音中学习强大的语言和韵律情感表示。在推断过程中，我们的方法仅使用一系列语音信号执行单模态 SER，从而减少计算开销并避免运行时转录和韵律特征提取错误。在 IEMOCAP 基准上的实验证明，我们的方法以相当大的优势胜过其他单模态和多模态技术，并实现了 77.49％的非加权准确率和 78.91％的加权准确率。详细的消融研究展示了我们方法的每个组成部分的影响。

Sep, 2023

多门机制与神经架构搜索的多语言语音情感识别

本文针对低资源语言，提出了一种语言特定的多预训练语音模型情感信息提取方法，设计了一种多领域模型，采用多门机制，并通过神经网络结构搜索模块为每种语言寻找特定的神经网络结构，并引入对比辅助损失来构建更可分离的音频数据表示。实验表明，该模型为德语和法语提高了 3％和 14.3％的准确率。

Oct, 2022

解析情绪：针对语音情感识别的全面多语言研究

使用八种语音表示模型和六种不同语言，该研究首次全面评估了基于 Transformer 的语音表示模型在跨多种语言的语音情感识别中的性能，并通过探索性实验揭示了这些模型的内部表征。实验结果表明，相较于使用所有层的语音模型特征的系统，仅使用语音模型最优层的特征平均降低了 7 个数据集上的错误率 32％。此外，还在德语和波斯语的语音情感识别方面取得了最新的成果，探测结果表明中间层的语音模型对于捕捉最重要的情感信息至关重要。

Aug, 2023

真实客户服务呼叫中心对话中的端到端连续语音情感识别

我们提出了一种大规模真实生活数据集（CusEmo）的构建方法，该数据集用于评估客户服务呼叫中心对话中情感的连续识别。该研究还解决了将端到端（E2E）情感识别系统应用于数据集时遇到的挑战，包括确定适当的标签采样率和输入段长度，以及使用多任务学习将情境信息（对话者的性别和共情水平）与不同权重的整合。实验结果表明，加入共情水平信息可以提高模型的性能。

Oct, 2023