FineCLIPER：用于动态面部表情识别的多模态细粒度 CLIP 与 AdaptERs

Jul, 2024

FineCLIPER：用于动态面部表情识别的多模态细粒度 CLIP 与 AdaptERs

FineCLIPER: Multi-modal Fine-grained CLIP for Dynamic Facial Expression Recognition with AdaptERs

Haodong Chen, Haojian Huang, Junhao Dong, Mingzhe Zheng, Dian Shao

TL;DR提出了一种名为 FineCLIPER 的新型多模态细粒度动态面部表情识别框架，通过使用文本描述进行监督，采用层次化的方式挖掘 DFE 视频中的有用线索，并使用 Parameter-Efficient Fine-Tuning 实现大规模预训练模型的高效自适应。实验证明 FineCLIPER 在有监督和零样本设置下，在 DFEW、FERV39k 和 MAFW 数据集上均取得了最先进的性能。

Abstract

dynamic facial expression recognition (DFER) is crucial for understanding human behavior. However, current methods exhibit limited performance mainly due to the scarcity of high-quality data, the insufficient utilization of facial dynamics, and the ambiguity of expression semantics, et

dynamic facial expression recognition multi-modal fine-grained clip adapters textual descriptions parameter-efficient fine-tuning

发现论文，激发创造

动态面部表情识别中激励视觉 - 语言模型

该论文介绍了一种名为 DFER-CLIP 的新型视觉语言模型，它基于 CLIP 模型，用于野外动态面部表情识别 (DFER)。该模型包括视觉部分和文本部分，通过提取时序面部表情特征和学习上下文信息，实现了与当前监督 DFER 方法相比的最先进结果。

Aug, 2023

A$^{3}$lign-DFER：面向动态面部表情识别的全面动态情感对齐与 CLIP

CLIP 在动态面部表情识别（DFER）任务中的性能不如其他基于 CLIP 的分类任务出色。为解决这个问题，我们设计了 A$^{3}$lign-DFER，通过引入一种新的 DFER 标注范例，全面实现对齐，从而增强 CLIP 在 DFER 任务中的适用性。A$^{3}$lign-DFER 在情感、动态和双向三个关键方面实现了对齐，并取得了多个 DFER 数据集上的最新成果。

Mar, 2024

M2-CLIP: 视频动作识别的多模态多任务自适应框架

该研究介绍了一种名为 \name 的新型多模态、多任务 CLIP 自适应框架，通过引入多模态适配器和多任务解码器，实现强大的监督学习性能和在零样本场景中的强大泛化能力。

Jan, 2024

EmoCLIP: 一种用于零样本视频人脸表情识别的视觉 - 语言方法

通过采用样本级文本描述（即上下文、表情或情感线索的标题）作为自然语言监督，我们提出了一种新颖的视觉 - 语言模型，旨在增强丰富的潜在表示的学习，以进行零样本分类。通过对四个流行的动态情感识别数据集进行模型测试，我们发现与基线方法相比，该方法在零样本视频情感识别方面表现出显著的改进，并在精神健康症状估计等下游任务中取得与人类专家相当或更优的性能。

Oct, 2023

MMA-DFER: 适应多模态单模型的野外动态面部表情识别

探讨使用自我监督学习方法进行多模态动态面部表情识别的研究，并提出了解决该任务中的主要挑战以及相应解决方案，最终在 DFEW 和 MFAW 两个常用的动态面部表情识别基准数据集上实现了超过当前最先进方法的改进。

Apr, 2024

FiGCLIP: 细粒度 CLIP 适应通过密集标注视频

通过基于 VidSitu 数据集的细节导向字幕和层级损失，我们改进了 contrastive language image pretraining (CLIP) 模型，提高了其对细粒度和句法的理解能力，并在不同任务中取得了稳定的改进。

Jan, 2024

优化过的 CLIP 模型是高效的视频学习器

论文提出了一种用于显式建模时间序列的新型模块，通过视频精调 CLIP 模型，可以将图像级别的表示有效地转移到视频领域，取得了良好的实验效果。

Dec, 2022

从静态到动态：针对视频中面部表情识别的适应性地标感知图像模型

通过静态 - 动态模型 (S2D) 结合面部标志感知特征和基于情感锚点的自蒸馏损失函数，提高了动态面部表情识别性能并达到了最先进水平。

Dec, 2023

通过 LLM 知识传递提升零样本面部表情识别

本研究提出了一种名为 Exp-CLIP 的新方法，通过从大型语言模型（LLMs）中转移任务知识来增强零样例人脸表情识别。利用预训练的视觉 - 语言编码器，通过投影头将初始联合视觉 - 语言空间映射到捕捉面部动作表示的空间，以此训练投影头进行零样例预测，同时采用基于文本指令的策略定制 LLM 知识。Exp-CLIP 在七个野外人脸表情数据集上实现了优于 CLIP 模型和其他若干大型视觉 - 语言模型（LVLMs）的零样例结果。

May, 2024

CLIP 多模态适应用于少样本动作识别

本文提出了一种名为 MA-CLIP 的新方法，旨在通过添加轻量级适配器来适应 CLIP 进行少样本动作识别，从而解决传统方法中的参数调优和时间建模的问题。

Aug, 2023