HCAM -- 多模态情感识别的层级交叉关注模型

Apr, 2023

HCAM -- 多模态情感识别的层级交叉关注模型

HCAM -- Hierarchical Cross Attention Model for Multi-modal Emotion Recognition

Soumya Dutta, Sriram Ganapathy

TL;DR本文提出了一种基于 HCAM 方法的跨模态情绪识别模型，使用神经网络模型组合音频和文本数据，在 IEMOCAP、MELD 和 CMU-MOSI 三个数据集上达到了最先进的结果。

Abstract

emotion recognition in conversations is challenging due to the multi-modal nature of the emotion expression. We propose a hierarchical cross-attention model (HCAM) approach to →

emotion recognition multi-modal neural network co-attention iemocap

发现论文，激发创造

情感维度识别中的递归跨模态注意力的多模态融合

通过跨模态注意力和时间卷积网络，提出了一种用于多模态情感识别的模型，能够有效地捕捉不同模态之间的互补关系，并在赛事中实现显著改进。

Mar, 2024

使用多跳注意力机制的语音情感识别

该论文提出了一种利用音频和文本信息的语音情感分类方法，使用双向 LSTM 和多跳注意力机制，在 IEMOCAP 数据集上，相对于现有技术，其在加权准确率上提高了 6.5% 的性能。

Apr, 2019

用于语音和文本数据的多模态情感识别的卷积注意力网络

本文提出了一种使用卷积注意网络学习语音和文本数据之间隐藏表示的新方法，较之之前的表现更好，能更好地识别出 CMU-MOSEI 数据集中包含的来自语音和文本数据的情感。

May, 2018

基于知识感知的多模态情感识别贝叶斯共同关注

该研究提出了使用贝叶斯注意力模块（BAM）来增强来自不同模态的预先训练模型的协同注意力融合，以有效融入外部情感相关知识以学习情感相关知识，实验证明该方法能够超过最先进方法至少 0.7 个百分点的准确度。

Feb, 2023

基于 Co-Attention 的多层声学信息的语音情感识别

本文提出了一种使用新设计的共同关注机制和多层声学信息的端到端语音情感识别系统。这个系统将 MFCC、谱图和嵌入了高水平声学信息的 CNN、BiLSTM 和 wav2vec2 等多层声学信息提取出来，并使用共同关注机制融合提取出来的多模态输入。在 IEMOCAP 数据集上进行的实验表明，我们的模型具有与两种不同的跨验证策略相竞争的性能。

Mar, 2022

探索应用于紧急呼叫中心语料库的多模态情感识别的注意力机制

本文探讨了基于 CEMO 数据集的语音和文本预训练模型在情感识别上的融合策略，研究表明基于多模态融合的交叉关注机制实现了更好的表现。同时，实验也表明在 CEMO 上，音频编码包含的情感信息比文本更为丰富。

Jun, 2023

利用分层注意策略和词级对齐的多模态情感分析

本文研究了从多个数据来源中学习识别和解释人类情感和主观信息的多模态情感计算问题，提出了一种基于 attention 机制和单词级融合的分层多模态体系结构，以从文本和音频数据中分类识别发言级别的情感和情绪。结果表明，该模型在现有数据集上表现优异。

May, 2018

基于低秩匹配注意力的跨模态特征融合对话情感识别方法

这篇论文提出了一种名为低秩匹配注意力方法的跨模态特征融合方法，可用于会话情感识别任务，并能够充分利用模态间的语义信息和模态内语境信息。实验证实该方法在诸多基准数据集上的表现均优于其他流行的跨模态融合方法。

Jun, 2023

使用高级音频和文本特征的多模态情感识别

本篇研究提出一个基于深度学习和跨媒介表征学习的情感识别方法，该方法融合了文字和语音特征，并通过评估发现其在 IEMOCAP 数据集上表现优于其它方法。

Sep, 2021

用于提升机器理解口语内容的分层注意力模型

提出了一项新的任务 —— 自动理解口语内容，本文通过构造多层注意力机制的分层注意力模型（HAM）来提高自动理解口语内容任务的表现，并且通过考虑树状结构而不是顺序结构的表示方法，使得模型对 ASR 错误更加鲁棒。

Aug, 2016