May, 2024

维度情感识别中基于一致性的音视频融合交叉注意力

TL;DR通过跨模态注意力来利用互补关系在多模态情感识别中引起了广泛关注。然而,模态之间也可能存在弱互补关系,可能会导致跨模态特征表示质量较差。为了解决这个问题,我们提出了一种基于不一致性感知的跨模态注意力方法(IACA),可以根据声音和视觉模态之间的强弱互补关系自适应地选择最相关的特征。具体而言,我们设计了一个两阶段的门控机制,可以自适应地选择适当的相关特征以处理弱互补关系。通过在具有挑战性的 Aff-Wild2 数据集上进行大量实验,展示了所提模型的鲁棒性。