多模态条件注意力融合在情感维度预测中的应用

Sep, 2017

多模态条件注意力融合在情感维度预测中的应用

Multi-modal Conditional Attention Fusion for Dimensional Emotion Prediction

Shizhe Chen, Qin Jin

TL;DR该研究提出了一种名为条件注意融合的新型多模态融合策略，将长短期记忆循环神经网络应用为基础单模态模型，自动决定分配给不同情感模态的权重，获得了在情感价值预测方面优于多种常见融合策略的实验结果。

Abstract

Continuous dimensional emotion prediction is a challenging task where the fusion of various modalities usually achieves state-of-the-art performance such as early fusion or late fusion. In this paper, we propose a novel multi-modal fusion strategy named →

dimensional emotion prediction multi-modal fusion strategy conditional attention fusion lstm-rnn valence prediction

发现论文，激发创造

情感维度识别中的递归跨模态注意力的多模态融合

通过跨模态注意力和时间卷积网络，提出了一种用于多模态情感识别的模型，能够有效地捕捉不同模态之间的互补关系，并在赛事中实现显著改进。

Mar, 2024

在时间连续的多模态情感识别中容纳缺失的模态

提出了一种基于 Transformer 的架构，用于识别情绪的正性和负性，即使输入模态缺失，该模型通过交叉关注和自关注机制强调模态之间的关系，提高了对弱显著输入的学习过程，并在 Ul-TSST 数据集上实验，与后期融合基准方法相比，预测唤醒值的一致性相关系数的评估提高了 37％，预测价值的一致性相关系数的评估提高了 30%。

Nov, 2023

多任务多模态预测分类和维度情感

多任务学习在语音情绪识别中的应用与多模态系统和情绪范畴及情绪维度的预测相关，通过跨任务正则化和特征融合提高模型表现。

Dec, 2023

多模态情感分析中的词级融合和强化学习

开发了一种新颖的深度结构 Gated Multimodal Embedding LSTM with Temporal Attention (GME-LSTM (A)) 模型，以单词级别进行多模态情感分析。在公开数据集 CMU-MOSI 上表现 State-of-the-art 的情感分类和回归结果，强调了 Temporal Attention Layer 在情感预测中的重要性和 Gated Multimodal Embedding 对于过滤有噪音的多模态的有效性。

Feb, 2018

基于注意力机制的多模态情感识别融合

本论文提出了一种基于深度学习的方法，结合了文本和音频数据进行情绪分类，使用 SincNet 层提取音频特征，同时使用双向 RNN 和深度卷积神经网络提取文本特征，通过交叉注意力机制融合两种特征，在 IEMOCAP 数据集上取得了比现有方法更好的性能。

Sep, 2020

基于双向注意力对多模态情感识别的群门融合

本文提出了一种新的模型 —— 门控双向对齐网络（GBAN），该模型利用注意力机制的双向对齐网络和一种新颖的分组门控融合层来明确捕捉语音和文本之间的对齐关系，并在不同模态中集成表示，从而在 IEMOCAP 数据集上优于现有的最先进的多模态方法。

Jan, 2022

用于语音和文本数据的多模态情感识别的卷积注意力网络

本文提出了一种使用卷积注意网络学习语音和文本数据之间隐藏表示的新方法，较之之前的表现更好，能更好地识别出 CMU-MOSEI 数据集中包含的来自语音和文本数据的情感。

May, 2018

多模态情感识别和情感分析的多任务学习

本文介绍了一个深度多任务学习框架，通过上下文级别的视听注意力机制来同时进行情感和表情分析，并在 CMU-MOSEI 数据集上达到了新的最佳性能。

May, 2019

基于知识感知的多模态情感识别贝叶斯共同关注

该研究提出了使用贝叶斯注意力模块（BAM）来增强来自不同模态的预先训练模型的协同注意力融合，以有效融入外部情感相关知识以学习情感相关知识，实验证明该方法能够超过最先进方法至少 0.7 个百分点的准确度。

Feb, 2023

基于注意力的多模态融合视频描述

本文提出了一种称为多模态注意力的方法，可以针对图像特征、运动特征和音频特征进行选择性关注，以促进视频描述的多模态信息融合，并在 Youtube2Text 数据集上取得了竞争状态 - of-the-art 的结果。

Jan, 2017