FaceXFormer：面部分析的统一 Transformer

Mar, 2024

FaceXFormer：面部分析的统一 Transformer

FaceXFormer: A Unified Transformer for Facial Analysis

Kartik Narayan, Vibashan VS, Rama Chellappa, Vishal M. Patel

TL;DR我们介绍了 FaceXformer，这是一个端到端的统一变换器模型，用于综合范围的面部分析任务，如面部解析、标志检测、头部姿势估计、属性识别以及年龄、性别、种族和标志点可见性的估计。我们的 FaceXformer 利用基于变换器的编码器 - 解码器架构，将每个任务视为可学习的标记，从而在单一框架内集成多个任务。此外，我们提出了一个参数高效的解码器 FaceX，它共同处理面部和任务标记，从而在不同任务之间学习通用和鲁棒的面部表示。根据我们的了解，这是首次使用变换器提出了一个能够处理所有这些面部分析任务的单一模型。我们对统一面部任务处理的有效骨干进行了全面分析，并评估了不同任务查询和它们之间的协同作用。我们在多个基准测试中进行了对比实验证实，与最先进的专用模型和之前的多任务模型相比，在数据集内和跨数据集评估中，我们的模型均表现出色。此外，我们的模型有效处理来自 “野外” 的图像，展示了它在八个不同任务上的鲁棒性和普适性，同时保持了每秒 37 帧的实时性能。

Abstract

In this work, we introduce facexformer, an end-to-end unified transformer model for a comprehensive range of facial analysis tasks such as face parsing, landmark detection, head pose estimation, attributes recogn

facexformer facial analysis transformer-based encoder-decoder architecture unified face task processing real-time performance

发现论文，激发创造

通过学习统一的面部表示实现通用的面部识别系统

FaceX 是一种新颖的面部通用模型，能够同时处理多样化的面部任务，通过 Facial Omni-Representation Decomposing (FORD) 实现对各种面部组件的无缝操作，并利用 StableDiffusion 的先验来增强生成质量和加速训练，在这基础上通过 Facial Omni-Representation Steering (FORS) 和 Facial Representation Controller (FRC) 实现对生成过程的有效控制。

Dec, 2023

面部表情和口罩佩戴分类的跨任务多分支视觉转换器

我们提出了一种统一的多分支视觉转换器，用于面部表情识别和口罩佩戴分类任务。我们的方法使用双分支架构提取两个任务的共享特征，获得多尺度特征表示。此外，我们提出了一个跨任务融合阶段，在交换信息的同时，使用交叉注意模块处理每个任务的标记。与为两个任务使用单独的网络相比，我们提出的框架通过简单而有效的跨任务融合阶段降低了总体复杂性。广泛的实验证明，我们提出的模型在面部表情识别和口罩佩戴分类任务上的表现优于或与不同的最新方法相当。

Apr, 2024

SwinFace: 一种用于人脸识别、表情识别、年龄估计和属性估计的多任务 Transformer

该研究提出了一种基于单一的 Swin Transformer 的多功能算法，用于同时进行人脸识别、面部表情识别、年龄估计和面部属性估计，并通过多层级通道注意力模块适应性地选择最佳级别和通道上的特征，以提高预测准确性、数据效率和训练速度。

Aug, 2023

FaceFormer：基于 Transformer 的语音驱动 3D 面部动画

提出了一种基于 Transformer 的自回归模型，称为 FaceFormer，用于声控 3D 面部动画。该模型能够对长时间音频上下文进行编码，并自回归预测一系列动画 3D 面网格。通过自监督预训练语音表示，使得该模型能够成功解决数据稀缺问题。同时，设计了两种有偏的注意机制，并进行为这个特定任务进行优化。大量实验证明，该方法优于现有的最先进技术。

Dec, 2021

FaceFormer：基于 Transformer 的尺度感知盲人脸部修复

本研究提出了一种新型的规模感知的盲目人脸修复模型，名为 FaceFormer，利用 Facial Feature Up-sampling 模块生成动态上采样滤波器以适应不同尺度的脸部输入，并借助于 facial feature embedding 模块利用 transformer 分层提取面部潜在多样性和稳健性，该方法在合成数据集训练得到的结果不仅具有高保真度和鲁棒性，还能泛化至自然低质量图像。

Jul, 2022

Faceptor：面部感知的通用模型

通过统一模型结构，采用 Naive Faceptor 和 Layer-Attention，提高面部感知任务的扩展性和应用效率。在 13 个面部感知数据集上进行联合训练，Faceptor 在面部地标定位、面部解析、年龄估计、表情识别、二进制属性分类和人脸识别方面取得了卓越的性能，同时对辅助监督学习也有显著的提升。

Mar, 2024

UniT：统一变形器进行多模态多任务学习

我们提出了一种名为 UniT 的统一 Transformer 模型，该模型可以同时学习不同领域中最重要的任务，从目标检测到自然语言理解和多模态推理，在编码器 - 解码器架构的基础上，通过编码器对每个输入模态进行编码，并使用共享解码器对编码的输入表示进行每个任务的预测，然后是特定于任务的输出头。我们的实验证明，在 8 个数据集上联合学习 7 个任务，使用比以前的工作更少的参数，在每个任务上都获得了强大的性能。

Feb, 2021

任务自适应的 Q-Face

提出了一种名为 Q-Face 的新型任务自适应多任务人脸分析方法，该方法能够同时执行多个面部分析任务，并在表情识别、动作单元检测、面部属性分析、年龄估计和面部姿态估计等方面达到了最先进的性能。

May, 2024

Fashionformer: 一种简单、有效和统一的基础模型，用于人类时尚分割和识别

本研究提出了一种基于 Vision Transformer 的人类时尚理解方法，通过联合分割和属性识别任务实现，使用对象和属性查询链接分割和预测结果，并使用 Multi-Layer Rendering 模块实现更细粒度的特征探索，实验证明该方法在三个人类时尚数据集上的效果较之前的方法相对提高了 10％。

Apr, 2022

UNetFormer: 用于三维医学图像分割的统一视觉 Transformer 模型和预训练框架

本文提出了一个统一的框架，它由两个体系结构组成，称为 UNetFormer，具有基于 3D Swin 变压器的编码器和卷积神经网络和变压器的解码器。该架构的设计允许在准确性和计算成本之间满足宽范围的权衡要求。使用 CT 图像进行自我监督预训练，使用 Medical Segmentation Decathlon（MSD）数据集进行肝和肝肿瘤分割任务的 Fine-tune 和测试，并使用 MRI 图像的 BraTS 21 数据集进行脑肿瘤分割，并在 Dice 评分方面优于其他方法。

Apr, 2022