基于低秩匹配注意力的跨模态特征融合对话情感识别方法
本文提出了一种基于 HCAM 方法的跨模态情绪识别模型,使用神经网络模型组合音频和文本数据,在 IEMOCAP、MELD 和 CMU-MOSI 三个数据集上达到了最先进的结果。
Apr, 2023
本文探讨了基于 CEMO 数据集的语音和文本预训练模型在情感识别上的融合策略,研究表明基于多模态融合的交叉关注机制实现了更好的表现。同时,实验也表明在 CEMO 上,音频编码包含的情感信息比文本更为丰富。
Jun, 2023
通过对感官信号和情感意图进行建模并使用多种传感器信号进行低秩多模态融合和转换,我们提出了基于 transformer 的跨模态融合架构,该架构允许表示近似的乘性潜在信号交互,并且具有更少的模型参数、更快的训练速度和与其他大型融合模型相当的情感识别性能。
Jul, 2020
该研究提出了一种名为条件注意融合的新型多模态融合策略,将长短期记忆循环神经网络应用为基础单模态模型,自动决定分配给不同情感模态的权重,获得了在情感价值预测方面优于多种常见融合策略的实验结果。
Sep, 2017
该研究提出了使用贝叶斯注意力模块(BAM)来增强来自不同模态的预先训练模型的协同注意力融合,以有效融入外部情感相关知识以学习情感相关知识,实验证明该方法能够超过最先进方法至少 0.7 个百分点的准确度。
Feb, 2023
通过设计多模态生成对抗网络、深度联合变分自编码器和多任务图神经网络等方法,提出了一种处理情感识别中数据不平衡的模型,取得了跨模态情感识别的一定性能改进,尤其在恐惧和厌恶情绪标签的准确性和 F1 值上提高了 10%到 20%。
Dec, 2023
使用自我监督目标进行大型基础模型的训练,然后在下游任务中进行微调已成为一种标准程序。我们介绍了多模态注意力融合(MAM)方法,通过零 - shot 范式,实现了从高资源模态(文本和图像)的注意力矩阵到资源受限领域(语音和音频)的知识转移。MAM 可将自动语音识别(ASR)模型的相对字错误率(WER)降低多达 6.70%,将音频事件分类(AEC)模型的相对分类错误率降低 10.63%。在一些数据 / 计算资源可用的情况下,我们提出了可学习的 MAM 方法,用于合并注意力矩阵,进一步将 ASR 的 WER 降低 2.90%,AEC 降低 18.42%,相对于微调方法。
Dec, 2023
为了解决情感识别中的单模态方法在捕捉真实世界情感表达复杂性方面的局限性,我们提出了 MERR 数据集和 Emotion-LLaMA 模型,通过整合音频、视觉和文本输入,显著提高情感识别能力,并在 evaluations 中取得了优异的成绩。
Jun, 2024
综述了多模式对话情感识别的建模方法,大致划分为无上下文建模、顺序上下文建模、说话人差异建模和说话人关系建模四个类别,并讨论了多模式特征提取方法、应用领域、挑战和未来发展方向。希望能够帮助研究人员理解当前情感识别研究的现状,提供一些启示,并开发出更高效的模型。
Dec, 2023