通过 LLM 知识传递提升零样本面部表情识别

May, 2024

通过 LLM 知识传递提升零样本面部表情识别

Enhancing Zero-Shot Facial Expression Recognition by LLM Knowledge Transfer

Zengqun Zhao, Yu Cao, Shaogang Gong, Ioannis Patras

TL;DR本研究提出了一种名为 Exp-CLIP 的新方法，通过从大型语言模型（LLMs）中转移任务知识来增强零样例人脸表情识别。利用预训练的视觉 - 语言编码器，通过投影头将初始联合视觉 - 语言空间映射到捕捉面部动作表示的空间，以此训练投影头进行零样例预测，同时采用基于文本指令的策略定制 LLM 知识。Exp-CLIP 在七个野外人脸表情数据集上实现了优于 CLIP 模型和其他若干大型视觉 - 语言模型（LVLMs）的零样例结果。

Abstract

Current facial expression recognition (FER) models are often designed in a supervised learning manner thus are constrained by the lack of large-scale facial expression images with high-quality annotations. Consequently, these models often fail to generalize well, performing poorly on u

facial expression recognition zero-shot learning vision-language models task knowledge transfer exp-clip

发现论文，激发创造

EmoCLIP: 一种用于零样本视频人脸表情识别的视觉 - 语言方法

通过采用样本级文本描述（即上下文、表情或情感线索的标题）作为自然语言监督，我们提出了一种新颖的视觉 - 语言模型，旨在增强丰富的潜在表示的学习，以进行零样本分类。通过对四个流行的动态情感识别数据集进行模型测试，我们发现与基线方法相比，该方法在零样本视频情感识别方面表现出显著的改进，并在精神健康症状估计等下游任务中取得与人类专家相当或更优的性能。

Oct, 2023

Zoom-shot: 快速高效的无监督零样本迁移 CLIP 到视觉编码器的多模态损失

通过 Zoom-shot 方法，利用多模态损失函数将 CLIP 潜空间与预训练视觉编码器的潜空间进行线性映射，从而在粗粒度和细粒度分类数据集上提升了现有的零样本能力，实现了下一代 VLMs 的开发。

Jan, 2024

动态面部表情识别中激励视觉 - 语言模型

该论文介绍了一种名为 DFER-CLIP 的新型视觉语言模型，它基于 CLIP 模型，用于野外动态面部表情识别 (DFER)。该模型包括视觉部分和文本部分，通过提取时序面部表情特征和学习上下文信息，实现了与当前监督 DFER 方法相比的最先进结果。

Aug, 2023

将 CLIP 的知识转化为零样本点云语义分割

本文提出了一种简单而有效的基线方法，将 CLIP 中的视觉语言知识在特征和输出层面上转移到点云编码器，从而在零样本点云语义分割中取得了显著的性能提升，并在无标注点云语义分割设置中取得了有希望的结果，展示了其在标签效率学习方面的巨大潜力。

Dec, 2023

探索视觉语言模型的零样本能力以提高凝视跟踪

通过调查视觉语言模型（VLMs）的零样本能力，探索提取各种上下文线索以提高凝视跟踪性能的可能性。

Jun, 2024

Cascade-CLIP: 零样本语义分割的级联视觉 - 语言嵌入对齐

基于预训练视觉 - 语言模型的 Cascade-CLIP 方法，在零样本语义分割任务中通过引入一系列独立解码器，以级联方式将多层次的视觉特征与文本嵌入对齐，取得了优秀的性能。

Jun, 2024

皮肤科人工智能中零样本概念生成的数据对齐

人类语义相关且医学领域精确的元标签在皮肤病学中的 AI 分类模型培训中十分稀缺，CLIP 模型可通过利用互联网上的大量图像 - 标题对进行零样本学习以解决数据缺乏的问题，并可以通过使用领域特定的图像 - 标题对对其进行微调来提高分类性能。

Apr, 2024

CLIP 模型是少样本学习器：基于 VQA 和视觉蕴涵的实证研究

本文实证表明，CLIP 通过利用语言的能力可以成为强大的视觉 - 语言少样本学习器。我们评估了 CLIP 在典型的视觉问答任务和视觉蕴含任务的零样本性能，并提出了一种参数有效的微调策略，以提高少样本性能，最终取得了有竞争力的零样本 /few-shot 结果。

Mar, 2022

冻结的 CLIP 模型是高效的视频学习者

本文提出 Efficient Video Learning (EVL) 框架，使用轻量级 Transformer 解码器和学习查询标记以从 CLIP 图像编码器中动态收集帧级空间特征，进一步采用每个解码器层中的局部时间模块来发现相邻帧及其注意力映射中的时间线索。尽管使用了以前的预训练图像模型，本研究表明 EVL 模型在各种视频识别数据集上都学习了高质量的视频表示方法。

Aug, 2022

ExpCLIP: 通过语义对齐桥接文本和面部表情

使用自然语言作为情感提示，并结合大规模语言模型构建的数据集，以及基于 CLIP 的模型实现文本和面部表情的语义对齐，从而实现表情丰富且可控制的面部动画生成。

Aug, 2023