基于多任务学习和多模态动态融合网络的语音情感识别

Mar, 2022

基于多任务学习和多模态动态融合网络的语音情感识别

Speech Emotion Recognition using Multi-task learning and a multimodal dynamic fusion network

Sreyan Ghosh, S Ramaneswaran, Harshvardhan Srivastava, S. Umesh

TL;DR本文提出了一种多模态多任务学习的情感识别方法，包括文本和声学模态的早期融合和自我注意力，使用动态融合网络用于语音编码器，得到了目前最先进的性能结果。

Abstract

emotion recognition (ER) aims to classify human utterances into different emotion categories. Based on early-fusion and self-attention-based multimodal interaction between text and acoustic modalities, in this paper, we propose MMER, a multimodal →

emotion recognition multimodal interaction multitask learning dynamic fusion network state-of-the-art performance

发现论文，激发创造

语音情感识别的实证研究与改进

本文提出了一种通过视角损失来改进的多模态语音情感识别模型，通过融合音频和文本信息来提高多模态任务的性能表现，在 IEMOCAP 数据集上获得了最新的最佳表现。

Apr, 2023

利用标签信息进行多模态情感识别

通过利用标签信息进行多模态情绪识别，我们提出了一种新的方法，通过标签 - 令牌和标签 - 帧交互来学习每个话语的标签增强文本 / 语音表示，并设计了一种新的标签引导的注意融合模块，以融合具有标签意识的文本和语音表示进行情绪分类，实验证明该方法优于现有基线并取得了最新的最佳性能。

Sep, 2023

M3ER：使用面部、文本和语音线索的乘法多模态情感识别

提出了一种基于多个输入模态的学习方法 M3ER，旨在实现情绪识别，其采用数据驱动的乘积融合方法来结合来自多个模态的线索，抑制噪音，提高准确性，并取得了成功的实验验证。

Nov, 2019

基于深度多模态学习的口语情感识别

本文提出了一种新颖的深度多模态框架，基于句子级别的口语语言预测人类情感，通过混合式的深度多模态结构从文本和音频中提取高级特征，再使用三层深度神经网络将所有特征融合起来进行训练，实现整个结构的最优全局微调，结果表明本文框架在 IEMOCAP 数据集上达到了 60.4% 的加权准确率。

Feb, 2018

使用高级音频和文本特征的多模态情感识别

本篇研究提出一个基于深度学习和跨媒介表征学习的情感识别方法，该方法融合了文字和语音特征，并通过评估发现其在 IEMOCAP 数据集上表现优于其它方法。

Sep, 2021

基于多模态融合网络的对话情感识别技术（M2FNet）

本篇研究利用多模态方法提高情感识别的准确性，提出了一种多模态融合网络 M2FNet，利用视觉、音频和文本模态提取情感相关特征，并使用多头注意力机制进行融合。经实验验证，该方法在 MELD 和 IEMOCAP 数据集上表现显著优于其他方法，达到了情感识别领域的最新性能表现。

Jun, 2022

基于语音的多模态情感识别中的学习对齐

本文提出使用注意力机制学习语音帧和文本单词之间的对齐方法，以提高音频 - 文本多模态情感识别的准确性，并在 IEMOCAP 数据集上取得了最先进的性能。

Sep, 2019

基于 Co-Attention 的多层声学信息的语音情感识别

本文提出了一种使用新设计的共同关注机制和多层声学信息的端到端语音情感识别系统。这个系统将 MFCC、谱图和嵌入了高水平声学信息的 CNN、BiLSTM 和 wav2vec2 等多层声学信息提取出来，并使用共同关注机制融合提取出来的多模态输入。在 IEMOCAP 数据集上进行的实验表明，我们的模型具有与两种不同的跨验证策略相竞争的性能。

Mar, 2022

利用语音和文本的多模态语音情感识别

本文提出了一种深度双重循环编码器模型，利用语音和文本数据进行机器情感识别，该模型表现更优，实验结果显示，当将该模型应用于 IEMOCAP 数据集时，在将数据分配到四个情感类别（愤怒，高兴，悲伤和中性）方面，准确率在 68.8％至 71.8％之间。

Oct, 2018

基于深度学习的多模态对话情感识别综合调查

综述了多模式对话情感识别的建模方法，大致划分为无上下文建模、顺序上下文建模、说话人差异建模和说话人关系建模四个类别，并讨论了多模式特征提取方法、应用领域、挑战和未来发展方向。希望能够帮助研究人员理解当前情感识别研究的现状，提供一些启示，并开发出更高效的模型。

Dec, 2023