EmoBox: 跨语言多语料库语音情感识别工具箱与基准

Jun, 2024

EmoBox: 跨语言多语料库语音情感识别工具箱与基准

EmoBox: Multilingual Multi-corpus Speech Emotion Recognition Toolkit and Benchmark

Ziyang Ma, Mingjie Chen, Hezhao Zhang, Zhisheng Zheng, Wenxi Chen...

TL;DR我们提出了 EmoBox，这是一个开箱即用的多语言多语料库语音情感识别工具包，并配备了用于内部和跨语料库设置的基准测试。

Abstract

speech emotion recognition (ser) is an important part of human-computer interaction, receiving extensive attention from both industry and academia. However, the current research field of →

speech emotion recognition emobox multilingual multi-corpus benchmark ser

发现论文，激发创造

解析情绪：针对语音情感识别的全面多语言研究

使用八种语音表示模型和六种不同语言，该研究首次全面评估了基于 Transformer 的语音表示模型在跨多种语言的语音情感识别中的性能，并通过探索性实验揭示了这些模型的内部表征。实验结果表明，相较于使用所有层的语音模型特征的系统，仅使用语音模型最优层的特征平均降低了 7 个数据集上的错误率 32％。此外，还在德语和波斯语的语音情感识别方面取得了最新的成果，探测结果表明中间层的语音模型对于捕捉最重要的情感信息至关重要。

Aug, 2023

如何在数据集间推广 SER 模型？一个全面的基准测试

通过整合多个数据集、解决数据分布不均衡以及评估协议，本研究旨在推进语音情感识别技术的发展，以实现人机交互的增强。

Jun, 2024

多门机制与神经架构搜索的多语言语音情感识别

本文针对低资源语言，提出了一种语言特定的多预训练语音模型情感信息提取方法，设计了一种多领域模型，采用多门机制，并通过神经网络结构搜索模块为每种语言寻找特定的神经网络结构，并引入对比辅助损失来构建更可分离的音频数据表示。实验表明，该模型为德语和法语提高了 3％和 14.3％的准确率。

Oct, 2022

INTERSPEECH 2009 情感挑戰重探：在語音情感識別領域 15 年的進展基準

重新回顾评估深度学习模型在语音情感识别研究中的最新进展，表明尽管取得了一些进步，FAU-AIBO 仍然是一个具有挑战性的基准，而新的方法并不一致地优于旧的方法，显示解决语音情感识别问题的进展不一定是单调的。

Jun, 2024

设计与评估语音情感识别系统：IEMOCAP 的现实案例研究

本文旨在对使用 IEMOCAP 的情感语音识别研究进行批判性评审，并提出了情感语音识别的评估准则和可重复性评估方法。

Apr, 2023

基于波斯语 ASR 的 SER：修改 Sharif 情感语音数据库并研究波斯文本语料库

本文通过使用自动语音识别系统，研究了来自波斯语文本语料库的 Farsi 语言模型对 Sharif 情感语音数据库（ShEMO）中不一致性的修复作用，并介绍了一种基于波斯语 / Farsi 语音识别的 SER 系统，该系统使用 ASR 输出的语言特征和基于深度学习的模型。

Nov, 2022

情感导向的自动语音识别预训练，增强语音情感识别

提出了一种新颖的多任务预训练方法，用于语音情感识别，在同时进行自动语音识别和情感分类任务的情况下对 SER 模型进行预训练，生成目标情感分类的方法，通过公开数据训练的文本情感模型，将声学 ASR 模型更加 “情感感知”，最终在情感注释语音数据上进行了微调，达到了 MSP-Podcast 数据集中价值预测最佳的一致性相关系数（CCC）0.41。

Jan, 2022

跨语料库多语言语音情感识别：阿姆哈拉语与其他语言

跨语言和多语言训练可以是资源稀缺的语言中训练情感识别分类器的有效策略。

Jul, 2023

半监督跨语言语音情感识别

本文提出一种基于半监督学习的交叉语言情感识别方法，使用卷积神经网络 (CNN) 和伪标签策略进行训练，在五种不同语言的数据上表现出鲁棒性。

Jul, 2022

通过提炼韵律和语言情感表达的语音情感识别

EmoDistill 是一个新颖的语音情感识别（SER）框架，利用跨模态知识蒸馏在训练期间从语音中学习强大的语言和韵律情感表示。在推断过程中，我们的方法仅使用一系列语音信号执行单模态 SER，从而减少计算开销并避免运行时转录和韵律特征提取错误。在 IEMOCAP 基准上的实验证明，我们的方法以相当大的优势胜过其他单模态和多模态技术，并实现了 77.49％的非加权准确率和 78.91％的加权准确率。详细的消融研究展示了我们方法的每个组成部分的影响。

Sep, 2023