多门机制与神经架构搜索的多语言语音情感识别

Oct, 2022

多门机制与神经架构搜索的多语言语音情感识别

Multilingual Speech Emotion Recognition With Multi-Gating Mechanism and Neural Architecture Search

Zihan Wang, Qi Meng, HaiFeng Lan, XinRui Zhang, KeHao Guo...

TL;DR本文针对低资源语言，提出了一种语言特定的多预训练语音模型情感信息提取方法，设计了一种多领域模型，采用多门机制，并通过神经网络结构搜索模块为每种语言寻找特定的神经网络结构，并引入对比辅助损失来构建更可分离的音频数据表示。实验表明，该模型为德语和法语提高了 3％和 14.3％的准确率。

Abstract

speech emotion recognition (SER) classifies audio into emotion categories such as Happy, Angry, Fear, Disgust and Neutral. While Speech Emotion Recognition (SER) is a common application for popular languages, it continues to be a problem for →

speech emotion recognition low-resourced languages language-specific model multi-domain model neural architecture search

发现论文，激发创造

解析情绪：针对语音情感识别的全面多语言研究

使用八种语音表示模型和六种不同语言，该研究首次全面评估了基于 Transformer 的语音表示模型在跨多种语言的语音情感识别中的性能，并通过探索性实验揭示了这些模型的内部表征。实验结果表明，相较于使用所有层的语音模型特征的系统，仅使用语音模型最优层的特征平均降低了 7 个数据集上的错误率 32％。此外，还在德语和波斯语的语音情感识别方面取得了最新的成果，探测结果表明中间层的语音模型对于捕捉最重要的情感信息至关重要。

Aug, 2023

语音情感识别的神经架构搜索

本文提出利用神经网络架构搜索技术以及统一路径随机失活策略来自动配置情感识别模型，实验证明在 IEMOCAP 上两个不同的神经结构都可以提高 SER 性能 (54.89% 到 56.28%) 并且可以保持模型参数大小，而且提出的随机失活策略也表现出更优的性能。

Mar, 2022

半监督跨语言语音情感识别

本文提出一种基于半监督学习的交叉语言情感识别方法，使用卷积神经网络 (CNN) 和伪标签策略进行训练，在五种不同语言的数据上表现出鲁棒性。

Jul, 2022

使用深度神经网络进行波斯语音情感识别

本研究利用各种深度学习和机器学习技术，通过对一个 Farsi/Persian 数据集的分析，研究了 Farsi 语言中的情感识别技术，取得了 65.20% 的 UA 和 78.29% 的 WA。

Apr, 2022

利用语音和文本的多模态语音情感识别

本文提出了一种深度双重循环编码器模型，利用语音和文本数据进行机器情感识别，该模型表现更优，实验结果显示，当将该模型应用于 IEMOCAP 数据集时，在将数据分配到四个情感类别（愤怒，高兴，悲伤和中性）方面，准确率在 68.8％至 71.8％之间。

Oct, 2018

情感导向的自动语音识别预训练，增强语音情感识别

提出了一种新颖的多任务预训练方法，用于语音情感识别，在同时进行自动语音识别和情感分类任务的情况下对 SER 模型进行预训练，生成目标情感分类的方法，通过公开数据训练的文本情感模型，将声学 ASR 模型更加 “情感感知”，最终在情感注释语音数据上进行了微调，达到了 MSP-Podcast 数据集中价值预测最佳的一致性相关系数（CCC）0.41。

Jan, 2022

基于讲话者注意力的语音情感识别

本文提出了一种基于自训练机制以及 Self Speaker Attention 机制的情感识别方法，该方法在 Att-HAC 和 IEMOCAP 上实现了最新的性能表现。

Apr, 2021

EmoBox: 跨语言多语料库语音情感识别工具箱与基准

我们提出了 EmoBox，这是一个开箱即用的多语言多语料库语音情感识别工具包，并配备了用于内部和跨语料库设置的基准测试。

Jun, 2024

使用双序列 LSTM 架构的语音情感识别

提出了一种新的双层模型，通过使用来自原始音频信号的 MFCC 特征和 mel-spectrograms 预测情感，其中一个标准 LSTM 处理 MFCC 特征，而一个新的双序列 LSTM 架构同时处理两个 mel-spectrograms，最终将输出平均，实现了在情感识别中的 6% 的提高。

Oct, 2019

基于 Co-Attention 的多层声学信息的语音情感识别

本文提出了一种使用新设计的共同关注机制和多层声学信息的端到端语音情感识别系统。这个系统将 MFCC、谱图和嵌入了高水平声学信息的 CNN、BiLSTM 和 wav2vec2 等多层声学信息提取出来，并使用共同关注机制融合提取出来的多模态输入。在 IEMOCAP 数据集上进行的实验表明，我们的模型具有与两种不同的跨验证策略相竞争的性能。

Mar, 2022