多模态条件注意力融合在情感维度预测中的应用
提出了一种基于 Transformer 的架构,用于识别情绪的正性和负性,即使输入模态缺失,该模型通过交叉关注和自关注机制强调模态之间的关系,提高了对弱显著输入的学习过程,并在 Ul-TSST 数据集上实验,与后期融合基准方法相比,预测唤醒值的一致性相关系数的评估提高了 37%,预测价值的一致性相关系数的评估提高了 30%。
Nov, 2023
开发了一种新颖的深度结构 Gated Multimodal Embedding LSTM with Temporal Attention (GME-LSTM (A)) 模型,以单词级别进行多模态情感分析。在公开数据集 CMU-MOSI 上表现 State-of-the-art 的情感分类和回归结果,强调了 Temporal Attention Layer 在情感预测中的重要性和 Gated Multimodal Embedding 对于过滤有噪音的多模态的有效性。
Feb, 2018
本论文提出了一种基于深度学习的方法,结合了文本和音频数据进行情绪分类,使用 SincNet 层提取音频特征,同时使用双向 RNN 和深度卷积神经网络提取文本特征,通过交叉注意力机制融合两种特征,在 IEMOCAP 数据集上取得了比现有方法更好的性能。
Sep, 2020
本文提出了一种新的模型 —— 门控双向对齐网络(GBAN),该模型利用注意力机制的双向对齐网络和一种新颖的分组门控融合层来明确捕捉语音和文本之间的对齐关系,并在不同模态中集成表示,从而在 IEMOCAP 数据集上优于现有的最先进的多模态方法。
Jan, 2022
本文提出了一种使用卷积注意网络学习语音和文本数据之间隐藏表示的新方法,较之之前的表现更好,能更好地识别出 CMU-MOSEI 数据集中包含的来自语音和文本数据的情感。
May, 2018
该研究提出了使用贝叶斯注意力模块(BAM)来增强来自不同模态的预先训练模型的协同注意力融合,以有效融入外部情感相关知识以学习情感相关知识,实验证明该方法能够超过最先进方法至少 0.7 个百分点的准确度。
Feb, 2023
本文提出了一种称为多模态注意力的方法,可以针对图像特征、运动特征和音频特征进行选择性关注,以促进视频描述的多模态信息融合,并在 Youtube2Text 数据集上取得了竞争状态 - of-the-art 的结果。
Jan, 2017