Mar, 2024

跨注意力并非必需:音频 - 视觉维度情感识别的动态跨注意力

TL;DR视频情绪识别中,音频和视觉模态通常被期望具有互补关系,本研究提出了动态交叉注意力(DCA)模型来动态选择跨模态特征的交叉注视或不注视,以优化音频 - 视觉特征的表示,从而提升系统性能。在 RECOLA 和 Aff-Wild2 两个具有挑战性的数据集上,我们评估了所提出方法的性能,并将其与其他交叉注意力的变体进行对比,从而证明了所提出模型在两个数据集上的稳定性能提升。