Oct, 2023

EmoCLIP: 一种用于零样本视频人脸表情识别的视觉 - 语言方法

TL;DR通过采用样本级文本描述(即上下文、表情或情感线索的标题)作为自然语言监督,我们提出了一种新颖的视觉 - 语言模型,旨在增强丰富的潜在表示的学习,以进行零样本分类。通过对四个流行的动态情感识别数据集进行模型测试,我们发现与基线方法相比,该方法在零样本视频情感识别方面表现出显著的改进,并在精神健康症状估计等下游任务中取得与人类专家相当或更优的性能。