May, 2024

通过 LLM 知识传递提升零样本面部表情识别

TL;DR本研究提出了一种名为 Exp-CLIP 的新方法,通过从大型语言模型(LLMs)中转移任务知识来增强零样例人脸表情识别。利用预训练的视觉 - 语言编码器,通过投影头将初始联合视觉 - 语言空间映射到捕捉面部动作表示的空间,以此训练投影头进行零样例预测,同时采用基于文本指令的策略定制 LLM 知识。Exp-CLIP 在七个野外人脸表情数据集上实现了优于 CLIP 模型和其他若干大型视觉 - 语言模型(LVLMs)的零样例结果。