动态面部表情识别中激励视觉 - 语言模型
通过采用样本级文本描述(即上下文、表情或情感线索的标题)作为自然语言监督,我们提出了一种新颖的视觉 - 语言模型,旨在增强丰富的潜在表示的学习,以进行零样本分类。通过对四个流行的动态情感识别数据集进行模型测试,我们发现与基线方法相比,该方法在零样本视频情感识别方面表现出显著的改进,并在精神健康症状估计等下游任务中取得与人类专家相当或更优的性能。
Oct, 2023
CLIP 在动态面部表情识别(DFER)任务中的性能不如其他基于 CLIP 的分类任务出色。为解决这个问题,我们设计了 A$^{3}$lign-DFER,通过引入一种新的 DFER 标注范例,全面实现对齐,从而增强 CLIP 在 DFER 任务中的适用性。A$^{3}$lign-DFER 在情感、动态和双向三个关键方面实现了对齐,并取得了多个 DFER 数据集上的最新成果。
Mar, 2024
本研究提出了一种名为 Exp-CLIP 的新方法,通过从大型语言模型(LLMs)中转移任务知识来增强零样例人脸表情识别。利用预训练的视觉 - 语言编码器,通过投影头将初始联合视觉 - 语言空间映射到捕捉面部动作表示的空间,以此训练投影头进行零样例预测,同时采用基于文本指令的策略定制 LLM 知识。Exp-CLIP 在七个野外人脸表情数据集上实现了优于 CLIP 模型和其他若干大型视觉 - 语言模型(LVLMs)的零样例结果。
May, 2024
在本文中,我们提出了一种针对开放场景的视频人脸表情识别 (OV-FER) 任务,旨在识别不仅包含已知类别,也包含训练中未遇到的新的未知人脸表情。为了克服现有方法对 OV-FER 任务所需的微妙和细微人脸表情模式的不足,我们提出了一种新颖的人脸表情敏感引导 (HESP) 机制来显著增强 CLIP 模型对视频人脸表情细节的建模能力。在四个 OV-FER 任务设置上进行的广泛实验表明,HESP 可以显著提高 CLIP 的性能(在 AUROC 上相对提升了 17.93%,在 OSCR 上相对提升了 106.18%),并大幅优于其他最先进的开放式视频理解方法。
Apr, 2024
探讨使用自我监督学习方法进行多模态动态面部表情识别的研究,并提出了解决该任务中的主要挑战以及相应解决方案,最终在 DFEW 和 MFAW 两个常用的动态面部表情识别基准数据集上实现了超过当前最先进方法的改进。
Apr, 2024
通过静态 - 动态模型 (S2D) 结合面部标志感知特征和基于情感锚点的自蒸馏损失函数,提高了动态面部表情识别性能并达到了最先进水平。
Dec, 2023
本文提出 Efficient Video Learning (EVL) 框架,使用轻量级 Transformer 解码器和学习查询标记以从 CLIP 图像编码器中动态收集帧级空间特征,进一步采用每个解码器层中的局部时间模块来发现相邻帧及其注意力映射中的时间线索。尽管使用了以前的预训练图像模型,本研究表明 EVL 模型在各种视频识别数据集上都学习了高质量的视频表示方法。
Aug, 2022
提出了一种名为 LOGO-Former 的本地全局时空 Transformer,用于解决人脸表情识别中长期依赖问题,将本地和全局特征结合起来,在两个野外人脸表情数据集上取得了有效的识别性能。
May, 2023
使用自然语言作为情感提示,并结合大规模语言模型构建的数据集,以及基于 CLIP 的模型实现文本和面部表情的语义对齐,从而实现表情丰富且可控制的面部动画生成。
Aug, 2023
MAE-DFER 是一种新型的自监督方法,它通过大规模无标签数据的自监督预训练来推动 DFER 的发展,同时采用效率高的局部全局交互 Transformer 编码器,以及明确的面部动作建模,可以学习到强大的动态面部表征。
Jul, 2023