EmoCLIP: 一种用于零样本视频人脸表情识别的视觉 - 语言方法

Oct, 2023

EmoCLIP: 一种用于零样本视频人脸表情识别的视觉 - 语言方法

EmoCLIP: A Vision-Language Method for Zero-Shot Video Facial Expression Recognition

Niki Maria Foteinopoulou, Ioannis Patras

TL;DR通过采用样本级文本描述（即上下文、表情或情感线索的标题）作为自然语言监督，我们提出了一种新颖的视觉 - 语言模型，旨在增强丰富的潜在表示的学习，以进行零样本分类。通过对四个流行的动态情感识别数据集进行模型测试，我们发现与基线方法相比，该方法在零样本视频情感识别方面表现出显著的改进，并在精神健康症状估计等下游任务中取得与人类专家相当或更优的性能。

Abstract

facial expression recognition (FER) is a crucial task in affective computing, but its conventional focus on the seven basic emotions limits its applicability to the complex and expanding emotional spectrum. To ad

facial expression recognition affective computing vision-language model zero-shot classification mental health symptom estimation

发现论文，激发创造

通过 LLM 知识传递提升零样本面部表情识别

本研究提出了一种名为 Exp-CLIP 的新方法，通过从大型语言模型（LLMs）中转移任务知识来增强零样例人脸表情识别。利用预训练的视觉 - 语言编码器，通过投影头将初始联合视觉 - 语言空间映射到捕捉面部动作表示的空间，以此训练投影头进行零样例预测，同时采用基于文本指令的策略定制 LLM 知识。Exp-CLIP 在七个野外人脸表情数据集上实现了优于 CLIP 模型和其他若干大型视觉 - 语言模型（LVLMs）的零样例结果。

May, 2024

动态面部表情识别中激励视觉 - 语言模型

该论文介绍了一种名为 DFER-CLIP 的新型视觉语言模型，它基于 CLIP 模型，用于野外动态面部表情识别 (DFER)。该模型包括视觉部分和文本部分，通过提取时序面部表情特征和学习上下文信息，实现了与当前监督 DFER 方法相比的最先进结果。

Aug, 2023

基于人脸表情敏感提示的开放式视频表情识别

在本文中，我们提出了一种针对开放场景的视频人脸表情识别 (OV-FER) 任务，旨在识别不仅包含已知类别，也包含训练中未遇到的新的未知人脸表情。为了克服现有方法对 OV-FER 任务所需的微妙和细微人脸表情模式的不足，我们提出了一种新颖的人脸表情敏感引导 (HESP) 机制来显著增强 CLIP 模型对视频人脸表情细节的建模能力。在四个 OV-FER 任务设置上进行的广泛实验表明，HESP 可以显著提高 CLIP 的性能（在 AUROC 上相对提升了 17.93%，在 OSCR 上相对提升了 106.18%），并大幅优于其他最先进的开放式视频理解方法。

Apr, 2024

持续面部表情识别：基准测试

本文提出了 Continual Facial Expression Recognition（ConFER）基准测试，评估了不同的 Continual Learning（CL）方法在面部表情识别任务中的性能，表明 CL 技术在不同的学习设置下能够实现多个数据集上的最先进的性能，因此促进了关于将 CL 原则应用于人类面部表情的行为理解中的益处和挑战的讨论。

May, 2023

从语言和非语言沟通中学习情感表达

EmotionCLIP 通过使用非筛选数据从语言和非语言交流中提取视觉情感表示来进行预训练，从而解决了情感理解中数据稀缺的问题，并通过情感引导的对比学习提供了口头和非口头情感线索。结果表明，EmotionCLIP 在各种基准测试中优于现有有监督的视觉情感识别方法并且可以与许多多模态方法竞争。

May, 2023

A$^{3}$lign-DFER：面向动态面部表情识别的全面动态情感对齐与 CLIP

CLIP 在动态面部表情识别（DFER）任务中的性能不如其他基于 CLIP 的分类任务出色。为解决这个问题，我们设计了 A$^{3}$lign-DFER，通过引入一种新的 DFER 标注范例，全面实现对齐，从而增强 CLIP 在 DFER 任务中的适用性。A$^{3}$lign-DFER 在情感、动态和双向三个关键方面实现了对齐，并取得了多个 DFER 数据集上的最新成果。

Mar, 2024

FERV39k：面部表情视频识别的大规模多场景数据集

本文介绍了最近的一个研究项目，针对静态图像表情的识别，构建了一个大规模的视频多场景数据集 FERV39k，为 FER 算法的性能评估提供了一个更实际的场景，提出了一种融合三个方面构建这种数据集的方法，并提供了四种基线框架的实验基准和对其在不同场景下性能的进一步分析，为未来的研究提出了一些挑战性问题。

Mar, 2022

深度面部表情识别研究综述

深度神经网络在面部表情识别中的应用、数据集和算法，针对过拟合和灯光、头部姿态等问题，分析和总结静态和动态图像序列的最新模型和性能，并探讨未来的发展方向和挑战。

Apr, 2018

通过半监督预训练和时间建模探索面部表情识别

我们提出了一种半监督学习技术来生成未标记面部数据的表情类别伪标签以解决有限 FER 数据集的泛化能力问题，并采用均匀抽样和去偏反馈学习策略来应对数据集中的类别不平衡问题和半监督学习中的数据偏差问题。此外，引入了时间编码器来学习和捕捉静态图像之间的临近表情特征的时间关系，并在第 6 届 ABAW 竞赛中在官方验证集上取得了优秀的成绩，充分证实了我们提出方法的有效性和竞争力。

Mar, 2024

多视角配对条件随机森林实现的动态姿态稳健的面部表情识别

本文提出了一种使用条件随机森林从视频中捕捉表情变化的低级表达式转换模式的方法，通过对影片中每个前一帧生成的树进行预测，并通过时间平均来获得鲁棒性估计，进而提升面部表情分类的性能及精度。

Jul, 2016