跨注意力并非必需：音频 - 视觉维度情感识别的动态跨注意力

Mar, 2024

跨注意力并非必需：音频 - 视觉维度情感识别的动态跨注意力

Cross-Attention is Not Always Needed: Dynamic Cross-Attention for Audio-Visual Dimensional Emotion Recognition

R. Gnana Praveen, Jahangir Alam

TL;DR视频情绪识别中，音频和视觉模态通常被期望具有互补关系，本研究提出了动态交叉注意力（DCA）模型来动态选择跨模态特征的交叉注视或不注视，以优化音频 - 视觉特征的表示，从而提升系统性能。在 RECOLA 和 Aff-Wild2 两个具有挑战性的数据集上，我们评估了所提出方法的性能，并将其与其他交叉注意力的变体进行对比，从而证明了所提出模型在两个数据集上的稳定性能提升。

Abstract

In video-based emotion recognition, audio and visual modalities are often expected to have a complementary relationship, which is widely explored using cross-attention. However, they may also exhibit weak complem

video-based emotion recognition audio-visual features dynamic cross-attention complementary relationship performance improvement

发现论文，激发创造

音频 - 视觉个人验证的动态交叉注意力

通过动态交叉注意力（DCA）模型，本文提出了一种能够根据音频和视觉模态之间的强弱互补关系动态选择跨模态关注或不关注特性的模型。实验证明该模型在多个跨模态注意力变体上表现出稳健性，同时优于现有方法的性能。

Mar, 2024

维度情感识别中基于一致性的音视频融合交叉注意力

通过跨模态注意力来利用互补关系在多模态情感识别中引起了广泛关注。然而，模态之间也可能存在弱互补关系，可能会导致跨模态特征表示质量较差。为了解决这个问题，我们提出了一种基于不一致性感知的跨模态注意力方法（IACA），可以根据声音和视觉模态之间的强弱互补关系自适应地选择最相关的特征。具体而言，我们设计了一个两阶段的门控机制，可以自适应地选择适当的相关特征以处理弱互补关系。通过在具有挑战性的 Aff-Wild2 数据集上进行大量实验，展示了所提模型的鲁棒性。

May, 2024

情感维度识别中的递归跨模态注意力的多模态融合

通过跨模态注意力和时间卷积网络，提出了一种用于多模态情感识别的模型，能够有效地捕捉不同模态之间的互补关系，并在赛事中实现显著改进。

Mar, 2024

观看、倾听和描述：全局和局部对齐的跨模态关注力用于视频字幕生成

提出了一种新的分层对齐交叉模态注意力 (HACA) 框架来学习和选择性地融合不同模态的全局和本地时间动态，在视频字幕任务中，首次验证了深度音频特征的卓越性能，该模型显著优于先前最佳系统并在广泛使用的 MSR-VTT 数据集上实现了新的最新成果。

Apr, 2018

通过受监督的深度 CCA 实现跨模式音乐视频检索的音频 - 视觉嵌入

使用 S-DCCA 算法构建跨模态音乐视频检索模型，其中采用基于 Attention 机制 LSTM 模型选择 top k 音频块，使得得到的局部音频摘要能够很好地代表整个音频内容，构建的深度学习模型实现了音频和视频语义的跨模态学习，从而实现了跨模态情感相似的音乐视频检索，并在构造的 10K 数据集上得到了良好的 MAP 和 precision-recall 表现。

Aug, 2019

音视频说话人验证基于联合交叉注意力

通过跨模态联合注意力来提升说话人验证的性能，进一步发掘音频和视觉融合在说话人验证领域的潜力。

Sep, 2023

精细视觉类别划分和物体再识别的双重交叉注意力学习

本文介绍了一种使用双重交叉 - 关注学习算法改进细粒度识别的方法，并通过全局 - 本地交叉关注和成对交叉关注等策略来提高自我关注机制的性能，从而使得注意力响应更加合理，能够发现更多互补的特征部位以提高识别精度。

May, 2022

基于递归融合的联合交叉注意力的音视频人员验证

通过递归融合的联合交叉关注模型和 BLSTMs，本研究有效地捕捉音频和视觉模态之间的内在和跨模态关系，显著提高了融合性能。

Mar, 2024

用于人员识别的交叉关注网络

本文提出了一种名为 CCA 的注意力模块，旨在通过最大化不同注意区域之间的信息增益来克服以前的限制，并提出了一种新的深层网络，利用不同的注意力机制学习人物图像的强鲁棒性和判别表现，得到的模型被称为 CCAN，大量实验证明 CCAN 在人物重新识别任务上优于当前状态下的最先进算法。

Jun, 2020

基于互相交叉注意机制的特征融合用于 EEG 情绪识别

我们提出了一种名为 Mutual-Cross-Attention（MCA）的新颖有效的特征融合机制，结合特殊定制的 3D 卷积神经网络（3D-CNN），该方法巧妙地发现了 EEG 数据中时域和频域特征之间的互补关系，并且通过新设计的 Channel-PSD-DE 3D 特征在 DEAP 数据集上获得了 99.49%（愉悦度）和 99.30%（唤醒度）的准确率。

Jun, 2024