基于人脸表情敏感提示的开放式视频表情识别

Apr, 2024

基于人脸表情敏感提示的开放式视频表情识别

Open-Set Video-based Facial Expression Recognition with Human Expression-sensitive Prompting

Yuanyuan Liu, Yuxuan Huang, Shuyang Liu, Yibing Zhan, Zijing Chen...

TL;DR在本文中，我们提出了一种针对开放场景的视频人脸表情识别 (OV-FER) 任务，旨在识别不仅包含已知类别，也包含训练中未遇到的新的未知人脸表情。为了克服现有方法对 OV-FER 任务所需的微妙和细微人脸表情模式的不足，我们提出了一种新颖的人脸表情敏感引导 (HESP) 机制来显著增强 CLIP 模型对视频人脸表情细节的建模能力。在四个 OV-FER 任务设置上进行的广泛实验表明，HESP 可以显著提高 CLIP 的性能（在 AUROC 上相对提升了 17.93%，在 OSCR 上相对提升了 106.18%），并大幅优于其他最先进的开放式视频理解方法。

Abstract

In video-based facial expression recognition (V-FER), models are typically trained on closed-set datasets with a fixed number of known classes. However, these V-FER models cannot deal with unknown classes that ar

video-based facial expression recognition open-set unknown classes human expression-sensitive prompting clip

发现论文，激发创造

开放集合人脸表情识别

我们提出了一种新的面部表情识别模型，将小类间距的劣势转化为优势，通过注意力图的一致性和循环训练来检测开放集样本，实验证明我们的方法在各种面部表情识别数据集上明显优于现有的开放集识别方法。

Jan, 2024

EmoCLIP: 一种用于零样本视频人脸表情识别的视觉 - 语言方法

通过采用样本级文本描述（即上下文、表情或情感线索的标题）作为自然语言监督，我们提出了一种新颖的视觉 - 语言模型，旨在增强丰富的潜在表示的学习，以进行零样本分类。通过对四个流行的动态情感识别数据集进行模型测试，我们发现与基线方法相比，该方法在零样本视频情感识别方面表现出显著的改进，并在精神健康症状估计等下游任务中取得与人类专家相当或更优的性能。

Oct, 2023

动态面部表情识别中激励视觉 - 语言模型

该论文介绍了一种名为 DFER-CLIP 的新型视觉语言模型，它基于 CLIP 模型，用于野外动态面部表情识别 (DFER)。该模型包括视觉部分和文本部分，通过提取时序面部表情特征和学习上下文信息，实现了与当前监督 DFER 方法相比的最先进结果。

Aug, 2023

FERV39k：面部表情视频识别的大规模多场景数据集

本文介绍了最近的一个研究项目，针对静态图像表情的识别，构建了一个大规模的视频多场景数据集 FERV39k，为 FER 算法的性能评估提供了一个更实际的场景，提出了一种融合三个方面构建这种数据集的方法，并提供了四种基线框架的实验基准和对其在不同场景下性能的进一步分析，为未来的研究提出了一些挑战性问题。

Mar, 2022

OUS：场景引导的动态面部表情识别

通过研究场景上下文对动态面部表情识别的影响，我们发现当前的识别方法忽视了情境对表情的影响，我们将之称为刚性认知问题。为了更好地模拟人类认知情绪的方式，我们提出了一种整体理解场景的动态面部表情识别方法（OUS），该方法有效地整合了场景和面部特征，成功地理解了场景背景和情绪表达之间的复杂关系。OUS 在两个最大的动态面部表情识别数据集 DFEW 和 FERV39k 上进行了广泛的实验证明，明显优于现有的方法。

May, 2024

持续面部表情识别：基准测试

本文提出了 Continual Facial Expression Recognition（ConFER）基准测试，评估了不同的 Continual Learning（CL）方法在面部表情识别任务中的性能，表明 CL 技术在不同的学习设置下能够实现多个数据集上的最先进的性能，因此促进了关于将 CL 原则应用于人类面部表情的行为理解中的益处和挑战的讨论。

May, 2023

通过 LLM 知识传递提升零样本面部表情识别

本研究提出了一种名为 Exp-CLIP 的新方法，通过从大型语言模型（LLMs）中转移任务知识来增强零样例人脸表情识别。利用预训练的视觉 - 语言编码器，通过投影头将初始联合视觉 - 语言空间映射到捕捉面部动作表示的空间，以此训练投影头进行零样例预测，同时采用基于文本指令的策略定制 LLM 知识。Exp-CLIP 在七个野外人脸表情数据集上实现了优于 CLIP 模型和其他若干大型视觉 - 语言模型（LVLMs）的零样例结果。

May, 2024

利用深度神经网络深入进行面部表情识别

提出了一种深度神经网络构架，可在多个公共面部数据库上进行面部表情识别，并且在精度和训练时间上优于传统卷积神经网络和现有方法。

Nov, 2015

深度面部表情识别研究综述

深度神经网络在面部表情识别中的应用、数据集和算法，针对过拟合和灯光、头部姿态等问题，分析和总结静态和动态图像序列的最新模型和性能，并探讨未来的发展方向和挑战。

Apr, 2018

潜在 - OFER：用潜在向量进行遮挡的面部表情识别的检测、遮蔽和重构

提出了一种名为 Latent-OFER 的方法，通过使用视觉变换器 (ViT) 和卷积神经网络 (CNN) 进行遮挡部分的检测和修复，以及基于 CNN 的类激活映射提取与表情相关的信息，从而改善了遮挡面部表情识别的准确性。实验结果表明该方法优于现有方法。

Jul, 2023