SER_AMPEL: 一个用于意大利老年人 SER 的多源数据集

Nov, 2023

SER_AMPEL: 一个用于意大利老年人 SER 的多源数据集

SER_AMPEL: A multi-source dataset for SER of Italian older adults

Alessandra Grossi, Francesca Gasparini

TL;DR本文介绍了 SER_AMPEL，一个用于意大利老年人语音情感识别（SER）的多源数据集。数据集的特点是根据不同的协议进行收集，特别考虑了从电影和电视剧中提取的演奏对话以及通过适当问题引发情感的自然对话。通过对提出的数据集的子集进行分类结果分析，报告了关于 SER 关键问题的初步考虑。

Abstract

In this paper, ser_ampel, a multi-source dataset for speech emotion recognition (SER) is presented. The peculiarity of the dataset is that it is collected with the aim of providing a reference for →

ser_ampel multi-source dataset speech emotion recognition italian older adults classification results

发现论文，激发创造

基于跨语料库领域自适应的意大利老年人情感识别

本文旨在定义一个语音情感识别（SER）模型，能够在自然会话中识别意大利老年人的积极、中性和消极情绪。通过合并英语数据集和意大利语数据集并采用 XGBoost 模型训练，提出了一种适用于多个语种和多个年龄段的通用模型，并提出两种领域自适应策略来使模型适应老年人和意大利人。结果表明，这种方法提高了分类性能，同时也强调了需要收集新的数据集。

Nov, 2022

如何在数据集间推广 SER 模型？一个全面的基准测试

通过整合多个数据集、解决数据分布不均衡以及评估协议，本研究旨在推进语音情感识别技术的发展，以实现人机交互的增强。

Jun, 2024

EmoBox: 跨语言多语料库语音情感识别工具箱与基准

我们提出了 EmoBox，这是一个开箱即用的多语言多语料库语音情感识别工具包，并配备了用于内部和跨语料库设置的基准测试。

Jun, 2024

设计与评估语音情感识别系统：IEMOCAP 的现实案例研究

本文旨在对使用 IEMOCAP 的情感语音识别研究进行批判性评审，并提出了情感语音识别的评估准则和可重复性评估方法。

Apr, 2023

多门机制与神经架构搜索的多语言语音情感识别

本文针对低资源语言，提出了一种语言特定的多预训练语音模型情感信息提取方法，设计了一种多领域模型，采用多门机制，并通过神经网络结构搜索模块为每种语言寻找特定的神经网络结构，并引入对比辅助损失来构建更可分离的音频数据表示。实验表明，该模型为德语和法语提高了 3％和 14.3％的准确率。

Oct, 2022

野外录制的语音信息中的语音情感识别

使用来自西班牙 100 位说话者之间的即兴语音消息的情感数据集（EMOVOME 数据库），利用 eGeMAPS 特征、基于 Transformer 的模型及其组合，创建了基于说话者的独立 SER 模型，对连续和离散情感进行标注，并比较参考数据库的结果，并分析注释者和性别公平性的影响。使用预训练的 Unispeech-L 模型及其与 eGeMAPS 的组合取得了最高的结果，对于 3 类情感价值和唤醒度的预测，分别达到了 61.64% 和 55.57% 的非加权准确率（UA），相比基线模型提高了 10%。对于情感类别，获得了 42.58% 的 UA。EMOVOME 在情感类别的预测上不及被操纵的 RAVDESS 数据库，在情感价值和唤醒度方面与被引发的 IEMOCAP 数据库效果相似。此外，EMOVOME 的结果随着注释者标签的变化而变化，当结合专家和非专家的注释时，表现出更好的结果和更好的公平性。该研究在评估 SER 模型在现实生活中的应用方面做出了重要贡献，推动了用于分析即兴语音消息的应用程序的开发。

Mar, 2024

基于波斯语 ASR 的 SER：修改 Sharif 情感语音数据库并研究波斯文本语料库

本文通过使用自动语音识别系统，研究了来自波斯语文本语料库的 Farsi 语言模型对 Sharif 情感语音数据库（ShEMO）中不一致性的修复作用，并介绍了一种基于波斯语 / Farsi 语音识别的 SER 系统，该系统使用 ASR 输出的语言特征和基于深度学习的模型。

Nov, 2022

我们关心”: 提升客服对话中的混合语音情感识别

通过在自然会话中引入词级 VAD 值，本研究在 Natural Speech Emotion Dataset（NSED）上将负面情绪的 SER 任务的准确率相比基准值提高了 2%，这对于业务利益至关重要，可以帮助开发更礼貌和有同理心的对话代理程序。

Aug, 2023

一个新的阿姆哈拉语言语音情感数据集和分类基准

本文介绍了 Amharic 语言情感识别数据集（ASED），并使用 MFCC 特征和 VGGb 模型进行实验，结果表明在不同的训练模式下 MFCC 特征的效果优于 Mel-spectrogram 特征。由于 VGGb 在 ASED 数据集上的表现优异，同时在训练时间最短，本文提出该模型可成功用于其他语言的情感识别任务。

Jan, 2022

半监督跨语言语音情感识别

本文提出一种基于半监督学习的交叉语言情感识别方法，使用卷积神经网络 (CNN) 和伪标签策略进行训练，在五种不同语言的数据上表现出鲁棒性。

Jul, 2022