维度情感识别中基于一致性的音视频融合交叉注意力

May, 2024

维度情感识别中基于一致性的音视频融合交叉注意力

Inconsistency-Aware Cross-Attention for Audio-Visual Fusion in Dimensional Emotion Recognition

R Gnana Praveen, Jahangir Alam

TL;DR通过跨模态注意力来利用互补关系在多模态情感识别中引起了广泛关注。然而，模态之间也可能存在弱互补关系，可能会导致跨模态特征表示质量较差。为了解决这个问题，我们提出了一种基于不一致性感知的跨模态注意力方法（IACA），可以根据声音和视觉模态之间的强弱互补关系自适应地选择最相关的特征。具体而言，我们设计了一个两阶段的门控机制，可以自适应地选择适当的相关特征以处理弱互补关系。通过在具有挑战性的 Aff-Wild2 数据集上进行大量实验，展示了所提模型的鲁棒性。

Abstract

Leveraging complementary relationships across modalities has recently drawn a lot of attention in multimodal emotion recognition. Most of the existing approaches explored →

multimodal emotion recognition complementary relationships cross-attention feature representations two-stage gating mechanism

发现论文，激发创造

跨注意力并非必需：音频 - 视觉维度情感识别的动态跨注意力

视频情绪识别中，音频和视觉模态通常被期望具有互补关系，本研究提出了动态交叉注意力（DCA）模型来动态选择跨模态特征的交叉注视或不注视，以优化音频 - 视觉特征的表示，从而提升系统性能。在 RECOLA 和 Aff-Wild2 两个具有挑战性的数据集上，我们评估了所提出方法的性能，并将其与其他交叉注意力的变体进行对比，从而证明了所提出模型在两个数据集上的稳定性能提升。

Mar, 2024

音频 - 视觉个人验证的动态交叉注意力

通过动态交叉注意力（DCA）模型，本文提出了一种能够根据音频和视觉模态之间的强弱互补关系动态选择跨模态关注或不关注特性的模型。实验证明该模型在多个跨模态注意力变体上表现出稳健性，同时优于现有方法的性能。

Mar, 2024

情感维度识别中的递归跨模态注意力的多模态融合

通过跨模态注意力和时间卷积网络，提出了一种用于多模态情感识别的模型，能够有效地捕捉不同模态之间的互补关系，并在赛事中实现显著改进。

Mar, 2024

交叉注意力不足：不协调感知的多模态情感分析和情绪识别

通过层级交叉模态变压器与模态门控的轻量级模型，本文在情感和情绪分析领域，解决了多模态数据融合存在的潜在问题，提出了一种确定主要模态并逐层整合辅助模态的方法，发现了交叉模态关注中的跨模态不一致性并在三个基准数据集上验证了该方法的有效性，并使模型参数数量减少到不到 100 万个，同时表现出具有竞争力的结果。

May, 2023

观看、倾听和描述：全局和局部对齐的跨模态关注力用于视频字幕生成

提出了一种新的分层对齐交叉模态注意力 (HACA) 框架来学习和选择性地融合不同模态的全局和本地时间动态，在视频字幕任务中，首次验证了深度音频特征的卓越性能，该模型显著优于先前最佳系统并在广泛使用的 MSR-VTT 数据集上实现了新的最新成果。

Apr, 2018

重新思考弱监督的音频 - 视觉视频解析中的跨模态融合

通过引入混合注意力网络、信使引导中融合变换以及跨音频预测一致性等方法，本研究提出了一种新的弱监督音频 - 视觉视频解析框架，以解决多模态融合中的问题并改进单模态事件检测的性能。实验表明，我们的框架相比现有的最先进方法，表现更加优越。

Nov, 2023

音视频说话人验证基于联合交叉注意力

通过跨模态联合注意力来提升说话人验证的性能，进一步发掘音频和视觉融合在说话人验证领域的潜力。

Sep, 2023

跨模态注意力一致性正则化用于视觉语言关系对齐

通过跨模态注意力实现多模态视觉语言模型中的关系级对齐，进而改进现有最优方法并克服了标准测评指标中的组合泛化困境。

Dec, 2022

基于递归融合的联合交叉注意力的音视频人员验证

通过递归融合的联合交叉关注模型和 BLSTMs，本研究有效地捕捉音频和视觉模态之间的内在和跨模态关系，显著提高了融合性能。

Mar, 2024

通过联合注意力的递归融合实现音视频事件定位

本研究提出了一种新的多模态融合联合注意力机制，能够有效地从视听特征中学习联合表示，并通过递归式联合协同作用持续改进，从而在音视频事件定位任务中取得了明显的成果。

Aug, 2020