基于多任务学习和多模态动态融合网络的语音情感识别
本文提出了一种通过视角损失来改进的多模态语音情感识别模型,通过融合音频和文本信息来提高多模态任务的性能表现,在 IEMOCAP 数据集上获得了最新的最佳表现。
Apr, 2023
通过利用标签信息进行多模态情绪识别,我们提出了一种新的方法,通过标签 - 令牌和标签 - 帧交互来学习每个话语的标签增强文本 / 语音表示,并设计了一种新的标签引导的注意融合模块,以融合具有标签意识的文本和语音表示进行情绪分类,实验证明该方法优于现有基线并取得了最新的最佳性能。
Sep, 2023
提出了一种基于多个输入模态的学习方法 M3ER,旨在实现情绪识别,其采用数据驱动的乘积融合方法来结合来自多个模态的线索,抑制噪音,提高准确性,并取得了成功的实验验证。
Nov, 2019
本文提出了一种新颖的深度多模态框架,基于句子级别的口语语言预测人类情感,通过混合式的深度多模态结构从文本和音频中提取高级特征,再使用三层深度神经网络将所有特征融合起来进行训练,实现整个结构的最优全局微调,结果表明本文框架在 IEMOCAP 数据集上达到了 60.4% 的加权准确率。
Feb, 2018
本篇研究提出一个基于深度学习和跨媒介表征学习的情感识别方法,该方法融合了文字和语音特征,并通过评估发现其在 IEMOCAP 数据集上表现优于其它方法。
Sep, 2021
本篇研究利用多模态方法提高情感识别的准确性,提出了一种多模态融合网络 M2FNet,利用视觉、音频和文本模态提取情感相关特征,并使用多头注意力机制进行融合。经实验验证,该方法在 MELD 和 IEMOCAP 数据集上表现显著优于其他方法,达到了情感识别领域的最新性能表现。
Jun, 2022
本文提出使用注意力机制学习语音帧和文本单词之间的对齐方法,以提高音频 - 文本多模态情感识别的准确性,并在 IEMOCAP 数据集上取得了最先进的性能。
Sep, 2019
本文提出了一种使用新设计的共同关注机制和多层声学信息的端到端语音情感识别系统。这个系统将 MFCC、谱图和嵌入了高水平声学信息的 CNN、BiLSTM 和 wav2vec2 等多层声学信息提取出来,并使用共同关注机制融合提取出来的多模态输入。在 IEMOCAP 数据集上进行的实验表明,我们的模型具有与两种不同的跨验证策略相竞争的性能。
Mar, 2022
本文提出了一种深度双重循环编码器模型,利用语音和文本数据进行机器情感识别,该模型表现更优,实验结果显示,当将该模型应用于 IEMOCAP 数据集时,在将数据分配到四个情感类别(愤怒,高兴,悲伤和中性)方面,准确率在 68.8%至 71.8%之间。
Oct, 2018
综述了多模式对话情感识别的建模方法,大致划分为无上下文建模、顺序上下文建模、说话人差异建模和说话人关系建模四个类别,并讨论了多模式特征提取方法、应用领域、挑战和未来发展方向。希望能够帮助研究人员理解当前情感识别研究的现状,提供一些启示,并开发出更高效的模型。
Dec, 2023