基于低秩匹配注意力的跨模态特征融合对话情感识别方法

Jun, 2023

基于低秩匹配注意力的跨模态特征融合对话情感识别方法

A Low-rank Matching Attention based Cross-modal Feature Fusion Method for Conversational Emotion Recognition

Yuntao Shou, Xiangyong Cao, Deyu Meng, Bo Dong, Qinghua Zheng

TL;DR这篇论文提出了一种名为低秩匹配注意力方法的跨模态特征融合方法，可用于会话情感识别任务，并能够充分利用模态间的语义信息和模态内语境信息。实验证实该方法在诸多基准数据集上的表现均优于其他流行的跨模态融合方法。

Abstract

conversational emotion recognition (CER) is an important research topic in human-computer interactions. Although deep learning (DL) based CER approaches have achieved excellent performance, existing →

conversational emotion recognition deep learning cross-modal feature fusion low-rank matching attention method intra-modal and inter-modal emotional interaction

发现论文，激发创造

情感维度识别中的递归跨模态注意力的多模态融合

通过跨模态注意力和时间卷积网络，提出了一种用于多模态情感识别的模型，能够有效地捕捉不同模态之间的互补关系，并在赛事中实现显著改进。

Mar, 2024

HCAM -- 多模态情感识别的层级交叉关注模型

本文提出了一种基于 HCAM 方法的跨模态情绪识别模型，使用神经网络模型组合音频和文本数据，在 IEMOCAP、MELD 和 CMU-MOSI 三个数据集上达到了最先进的结果。

Apr, 2023

探索应用于紧急呼叫中心语料库的多模态情感识别的注意力机制

本文探讨了基于 CEMO 数据集的语音和文本预训练模型在情感识别上的融合策略，研究表明基于多模态融合的交叉关注机制实现了更好的表现。同时，实验也表明在 CEMO 上，音频编码包含的情感信息比文本更为丰富。

Jun, 2023

基于低秩融合的多模态序列变换器

通过对感官信号和情感意图进行建模并使用多种传感器信号进行低秩多模态融合和转换，我们提出了基于 transformer 的跨模态融合架构，该架构允许表示近似的乘性潜在信号交互，并且具有更少的模型参数、更快的训练速度和与其他大型融合模型相当的情感识别性能。

Jul, 2020

多模态条件注意力融合在情感维度预测中的应用

该研究提出了一种名为条件注意融合的新型多模态融合策略，将长短期记忆循环神经网络应用为基础单模态模型，自动决定分配给不同情感模态的权重，获得了在情感价值预测方面优于多种常见融合策略的实验结果。

Sep, 2017

基于知识感知的多模态情感识别贝叶斯共同关注

该研究提出了使用贝叶斯注意力模块（BAM）来增强来自不同模态的预先训练模型的协同注意力融合，以有效融入外部情感相关知识以学习情感相关知识，实验证明该方法能够超过最先进方法至少 0.7 个百分点的准确度。

Feb, 2023

对话中多模式情感识别的深度不平衡学习

通过设计多模态生成对抗网络、深度联合变分自编码器和多任务图神经网络等方法，提出了一种处理情感识别中数据不平衡的模型，取得了跨模态情感识别的一定性能改进，尤其在恐惧和厌恶情绪标签的准确性和 F1 值上提高了 10％到 20％。

Dec, 2023

多模态注意力融合用于提升语音识别和音频事件分类

使用自我监督目标进行大型基础模型的训练，然后在下游任务中进行微调已成为一种标准程序。我们介绍了多模态注意力融合（MAM）方法，通过零 - shot 范式，实现了从高资源模态（文本和图像）的注意力矩阵到资源受限领域（语音和音频）的知识转移。MAM 可将自动语音识别（ASR）模型的相对字错误率（WER）降低多达 6.70％，将音频事件分类（AEC）模型的相对分类错误率降低 10.63％。在一些数据 / 计算资源可用的情况下，我们提出了可学习的 MAM 方法，用于合并注意力矩阵，进一步将 ASR 的 WER 降低 2.90％，AEC 降低 18.42％，相对于微调方法。

Dec, 2023

情感 - LLaMA: 多模态情感识别与推理，通过指导调优

为了解决情感识别中的单模态方法在捕捉真实世界情感表达复杂性方面的局限性，我们提出了 MERR 数据集和 Emotion-LLaMA 模型，通过整合音频、视觉和文本输入，显著提高情感识别能力，并在 evaluations 中取得了优异的成绩。

Jun, 2024

基于深度学习的多模态对话情感识别综合调查

综述了多模式对话情感识别的建模方法，大致划分为无上下文建模、顺序上下文建模、说话人差异建模和说话人关系建模四个类别，并讨论了多模式特征提取方法、应用领域、挑战和未来发展方向。希望能够帮助研究人员理解当前情感识别研究的现状，提供一些启示，并开发出更高效的模型。

Dec, 2023