视频情绪识别中,音频和视觉模态通常被期望具有互补关系,本研究提出了动态交叉注意力(DCA)模型来动态选择跨模态特征的交叉注视或不注视,以优化音频 - 视觉特征的表示,从而提升系统性能。在 RECOLA 和 Aff-Wild2 两个具有挑战性的数据集上,我们评估了所提出方法的性能,并将其与其他交叉注意力的变体进行对比,从而证明了所提出模型在两个数据集上的稳定性能提升。
Mar, 2024
通过递归融合的联合交叉关注模型和 BLSTMs,本研究有效地捕捉音频和视觉模态之间的内在和跨模态关系,显著提高了融合性能。
通过跨模态联合注意力来提升说话人验证的性能,进一步发掘音频和视觉融合在说话人验证领域的潜力。
Sep, 2023
通过跨模态注意力来利用互补关系在多模态情感识别中引起了广泛关注。然而,模态之间也可能存在弱互补关系,可能会导致跨模态特征表示质量较差。为了解决这个问题,我们提出了一种基于不一致性感知的跨模态注意力方法(IACA),可以根据声音和视觉模态之间的强弱互补关系自适应地选择最相关的特征。具体而言,我们设计了一个两阶段的门控机制,可以自适应地选择适当的相关特征以处理弱互补关系。通过在具有挑战性的 Aff-Wild2 数据集上进行大量实验,展示了所提模型的鲁棒性。
May, 2024
提出了一种新的分层对齐交叉模态注意力 (HACA) 框架来学习和选择性地融合不同模态的全局和本地时间动态,在视频字幕任务中, 首次验证了深度音频特征的卓越性能,该模型显著优于先前最佳系统并在广泛使用的 MSR-VTT 数据集上实现了新的最新成果。
Apr, 2018
用多模态方法,包括语音和图像信号,提出了一个基于神经网络的在线人员验证系统。该网络通过学习多感官关联来达到验证任务的目的,并利用了关注机制来选择具有显著性的模态,以提供补充的输入。在 VoxCeleb2 数据集上,该方法表现出比其他多模态和单模态方法更好的鲁棒性和可靠性。
Nov, 2018
通过引入混合注意力网络、信使引导中融合变换以及跨音频预测一致性等方法,本研究提出了一种新的弱监督音频 - 视觉视频解析框架,以解决多模态融合中的问题并改进单模态事件检测的性能。实验表明,我们的框架相比现有的最先进方法,表现更加优越。
Nov, 2023
本研究提出了一种新的多模态融合联合注意力机制,能够有效地从视听特征中学习联合表示,并通过递归式联合协同作用持续改进,从而在音视频事件定位任务中取得了明显的成果。
Aug, 2020
通过跨模态学习方法的视听特征融合,我们提出了一种用于改进深假检测的两阶段方法,可以明确地捕捉音频和视觉模态之间的对应关系,并在真实和伪造视频上进行监督学习,取得了 98.6% 的准确率和 99.1% 的 AUC,相较于当前的音视混合最先进技术,准确率和 AUC 分别提高了 14.9% 和 9.9%。
Jun, 2024
通过跨模态注意力和时间卷积网络,提出了一种用于多模态情感识别的模型,能够有效地捕捉不同模态之间的互补关系,并在赛事中实现显著改进。