May, 2024

音视频情感识别的细节增强的模态内外交互

TL;DR我们提出了一个基于详细增强的模态内部和模态间交互网络(DE-III)的音频 - 视觉情感识别方法,利用光流信息丰富视频的纹理细节以捕捉面部状态变化,进一步改进视频和音频的丰富性和可区分性,通过详细的定量评估,我们的模型在三个基准数据集上都超过了现有方法,适用于具体和连续情感识别。