音频 - 视觉个人验证的动态交叉注意力

Mar, 2024

音频 - 视觉个人验证的动态交叉注意力

Dynamic Cross Attention for Audio-Visual Person Verification

R. Gnana Praveen, Jahangir Alam

TL;DR通过动态交叉注意力（DCA）模型，本文提出了一种能够根据音频和视觉模态之间的强弱互补关系动态选择跨模态关注或不关注特性的模型。实验证明该模型在多个跨模态注意力变体上表现出稳健性，同时优于现有方法的性能。

Abstract

Although person or identity verification has been predominantly explored using individual modalities such as face and voice, audio-visual fusion has recently shown immense potential to outperform unimodal approac

person verification identity verification audio-visual fusion cross-attention model complementary relationships

发现论文，激发创造

跨注意力并非必需：音频 - 视觉维度情感识别的动态跨注意力

视频情绪识别中，音频和视觉模态通常被期望具有互补关系，本研究提出了动态交叉注意力（DCA）模型来动态选择跨模态特征的交叉注视或不注视，以优化音频 - 视觉特征的表示，从而提升系统性能。在 RECOLA 和 Aff-Wild2 两个具有挑战性的数据集上，我们评估了所提出方法的性能，并将其与其他交叉注意力的变体进行对比，从而证明了所提出模型在两个数据集上的稳定性能提升。

Mar, 2024

基于递归融合的联合交叉注意力的音视频人员验证

通过递归融合的联合交叉关注模型和 BLSTMs，本研究有效地捕捉音频和视觉模态之间的内在和跨模态关系，显著提高了融合性能。

Mar, 2024

音视频说话人验证基于联合交叉注意力

通过跨模态联合注意力来提升说话人验证的性能，进一步发掘音频和视觉融合在说话人验证领域的潜力。

Sep, 2023

维度情感识别中基于一致性的音视频融合交叉注意力

通过跨模态注意力来利用互补关系在多模态情感识别中引起了广泛关注。然而，模态之间也可能存在弱互补关系，可能会导致跨模态特征表示质量较差。为了解决这个问题，我们提出了一种基于不一致性感知的跨模态注意力方法（IACA），可以根据声音和视觉模态之间的强弱互补关系自适应地选择最相关的特征。具体而言，我们设计了一个两阶段的门控机制，可以自适应地选择适当的相关特征以处理弱互补关系。通过在具有挑战性的 Aff-Wild2 数据集上进行大量实验，展示了所提模型的鲁棒性。

May, 2024

观看、倾听和描述：全局和局部对齐的跨模态关注力用于视频字幕生成

提出了一种新的分层对齐交叉模态注意力 (HACA) 框架来学习和选择性地融合不同模态的全局和本地时间动态，在视频字幕任务中，首次验证了深度音频特征的卓越性能，该模型显著优于先前最佳系统并在广泛使用的 MSR-VTT 数据集上实现了新的最新成果。

Apr, 2018

基于注意力神经网络融合的噪声容忍音视频人员在线验证

用多模态方法，包括语音和图像信号，提出了一个基于神经网络的在线人员验证系统。该网络通过学习多感官关联来达到验证任务的目的，并利用了关注机制来选择具有显著性的模态，以提供补充的输入。在 VoxCeleb2 数据集上，该方法表现出比其他多模态和单模态方法更好的鲁棒性和可靠性。

Nov, 2018

重新思考弱监督的音频 - 视觉视频解析中的跨模态融合

通过引入混合注意力网络、信使引导中融合变换以及跨音频预测一致性等方法，本研究提出了一种新的弱监督音频 - 视觉视频解析框架，以解决多模态融合中的问题并改进单模态事件检测的性能。实验表明，我们的框架相比现有的最先进方法，表现更加优越。

Nov, 2023

通过联合注意力的递归融合实现音视频事件定位

本研究提出了一种新的多模态融合联合注意力机制，能够有效地从视听特征中学习联合表示，并通过递归式联合协同作用持续改进，从而在音视频事件定位任务中取得了明显的成果。

Aug, 2020

AVFF：音视特征融合用于视频深度伪造检测

通过跨模态学习方法的视听特征融合，我们提出了一种用于改进深假检测的两阶段方法，可以明确地捕捉音频和视觉模态之间的对应关系，并在真实和伪造视频上进行监督学习，取得了 98.6% 的准确率和 99.1% 的 AUC，相较于当前的音视混合最先进技术，准确率和 AUC 分别提高了 14.9% 和 9.9%。

Jun, 2024

情感维度识别中的递归跨模态注意力的多模态融合

通过跨模态注意力和时间卷积网络，提出了一种用于多模态情感识别的模型，能够有效地捕捉不同模态之间的互补关系，并在赛事中实现显著改进。

Mar, 2024