Apr, 2024

基于人脸表情敏感提示的开放式视频表情识别

TL;DR在本文中,我们提出了一种针对开放场景的视频人脸表情识别 (OV-FER) 任务,旨在识别不仅包含已知类别,也包含训练中未遇到的新的未知人脸表情。为了克服现有方法对 OV-FER 任务所需的微妙和细微人脸表情模式的不足,我们提出了一种新颖的人脸表情敏感引导 (HESP) 机制来显著增强 CLIP 模型对视频人脸表情细节的建模能力。在四个 OV-FER 任务设置上进行的广泛实验表明,HESP 可以显著提高 CLIP 的性能(在 AUROC 上相对提升了 17.93%,在 OSCR 上相对提升了 106.18%),并大幅优于其他最先进的开放式视频理解方法。