面部表情和口罩佩戴分类的跨任务多分支视觉转换器

Apr, 2024

面部表情和口罩佩戴分类的跨任务多分支视觉转换器

Cross-Task Multi-Branch Vision Transformer for Facial Expression and Mask Wearing Classification

Armando Zhu, Keqin Li, Tong Wu, Peng Zhao, Wenjing Zhou...

TL;DR我们提出了一种统一的多分支视觉转换器，用于面部表情识别和口罩佩戴分类任务。我们的方法使用双分支架构提取两个任务的共享特征，获得多尺度特征表示。此外，我们提出了一个跨任务融合阶段，在交换信息的同时，使用交叉注意模块处理每个任务的标记。与为两个任务使用单独的网络相比，我们提出的框架通过简单而有效的跨任务融合阶段降低了总体复杂性。广泛的实验证明，我们提出的模型在面部表情识别和口罩佩戴分类任务上的表现优于或与不同的最新方法相当。

Abstract

With wearing masks becoming a new cultural norm, facial expression recognition (FER) while taking masks into account has become a significant challenge. In this paper, we propose a unified multi-branch vision transformer for →

facial expression recognition mask wearing multi-branch vision transformer dual-branch architecture cross-task fusion phase

发现论文，激发创造

用金字塔交叉融合的 Transformer 网络进行面部表情识别

本文提出了一个名为 POSTER 的 Pyramid Cross-fusion Transformer 网络，通过 transformer-based cross-fusion paradigm 解决 Facial Expression Recognition 中的 inter-class similarity、intra-class discrepancy 和 scale sensitivity 问题，并且采用金字塔结构实现了尺度不变性，在 RAF-DB、FERPlus 和 AffectNet 测试集上均取得了优于 SOTA 的结果。

Apr, 2022

面部表情识别的情感掩码自编码器与注意融合

创新方法集成了自我监督学习方法 MAE-Face 和融合注意机制，用于情感分类，通过提取关键面部特征以增强模型性能，特别是在 ABAW 第六次竞赛中展示，并在 Aff-wild2 数据集上得到显著验证。

Mar, 2024

FaceXFormer：面部分析的统一 Transformer

我们介绍了 FaceXformer，这是一个端到端的统一变换器模型，用于综合范围的面部分析任务，如面部解析、标志检测、头部姿势估计、属性识别以及年龄、性别、种族和标志点可见性的估计。我们的 FaceXformer 利用基于变换器的编码器 - 解码器架构，将每个任务视为可学习的标记，从而在单一框架内集成多个任务。此外，我们提出了一个参数高效的解码器 FaceX，它共同处理面部和任务标记，从而在不同任务之间学习通用和鲁棒的面部表示。根据我们的了解，这是首次使用变换器提出了一个能够处理所有这些面部分析任务的单一模型。我们对统一面部任务处理的有效骨干进行了全面分析，并评估了不同任务查询和它们之间的协同作用。我们在多个基准测试中进行了对比实验证实，与最先进的专用模型和之前的多任务模型相比，在数据集内和跨数据集评估中，我们的模型均表现出色。此外，我们的模型有效处理来自 “野外” 的图像，展示了它在八个不同任务上的鲁棒性和普适性，同时保持了每秒 37 帧的实时性能。

Mar, 2024

基于深度神经网络视频融合的面部表情分类 —— 第三届 ABAW3 竞赛

本研究使用 Transformer 机制，结合鲁棒表示编码和表示融合进行表情分类，结果表明该模型在 Aff-Wild2 数据集上表现有效。

Mar, 2022

SwinFace: 一种用于人脸识别、表情识别、年龄估计和属性估计的多任务 Transformer

该研究提出了一种基于单一的 Swin Transformer 的多功能算法，用于同时进行人脸识别、面部表情识别、年龄估计和面部属性估计，并通过多层级通道注意力模块适应性地选择最佳级别和通道上的特征，以提高预测准确性、数据效率和训练速度。

Aug, 2023

AFNet-M：自适应融合网络与面部表情识别的 2D+3D 面部表情识别

本研究提出了一种自适应融合网络，利用人脸显著区域的掩码来增强 2D 和 3D 局部特征，通过设计的调制向量自动学习，以及计算重要性权重的新型融合策略可以在卷积层中执行自适应融合。实验结果表明，该方法在 BU-3DFE 和 Bosphorus 数据集上具有最先进的性能并且需要较少的参数。

May, 2022

多任务 ArcFace 提升面部遮挡识别

本文提出了一种基于 ArcFace 工作、利用数据增强和 Multi-Task ArcFace 算法的全面训练流程，可识别戴口罩的人脸，同时还可以检测人们是否佩戴口罩。此方法大大提高了识别准确性，并在口罩使用分类方面达到了 99.78% 的平均准确度。

Apr, 2021

Swin Transformer 面部表情识别

本论文通过引入 Swin transformer，提出一种融合视觉、时间和音频模态的多模态方法用于自然环境下的面部表情识别，并在 Aff-Wild2 数据集上进行了实验证明其有效性。

Mar, 2022

基于迁移学习的虚拟现实头戴式显示器下部分遮挡下的面部表情识别

本文提出了一个基于几何模型的方法，在虚拟现实场景下戴着头戴式 VR 耳机困难的面部表情识别问题，在 FER + 和 RAF-DB 数据集上使用迁移学习方法，并在根据佩戴一款普通 VR 设备所导致的实际遮挡情况修改的基准数据集上展示了令人满意的识别结果。

Aug, 2020

Fashionformer: 一种简单、有效和统一的基础模型，用于人类时尚分割和识别

本研究提出了一种基于 Vision Transformer 的人类时尚理解方法，通过联合分割和属性识别任务实现，使用对象和属性查询链接分割和预测结果，并使用 Multi-Layer Rendering 模块实现更细粒度的特征探索，实验证明该方法在三个人类时尚数据集上的效果较之前的方法相对提高了 10％。

Apr, 2022