Swin Transformer 面部表情识别

Mar, 2022

Facial Expression Recognition with Swin Transformer

Jun-Hwa Kim, Namho Kim, Chee Sun Won

TL;DR本论文通过引入 Swin transformer，提出一种融合视觉、时间和音频模态的多模态方法用于自然环境下的面部表情识别，并在 Aff-Wild2 数据集上进行了实验证明其有效性。

Abstract

The task of recognizing human facial expressions plays a vital role in various human-related systems, including health care and medical fields. With the recent success of deep learning and the accessibility of a large amount of annotated data, →

facial expression recognition deep learning multi-modal approach audio-visual dataset swin transformer

发现论文，激发创造

SwinFace: 一种用于人脸识别、表情识别、年龄估计和属性估计的多任务 Transformer

该研究提出了一种基于单一的 Swin Transformer 的多功能算法，用于同时进行人脸识别、面部表情识别、年龄估计和面部属性估计，并通过多层级通道注意力模块适应性地选择最佳级别和通道上的特征，以提高预测准确性、数据效率和训练速度。

Aug, 2023

基于深度神经网络视频融合的面部表情分类 —— 第三届 ABAW3 竞赛

本研究使用 Transformer 机制，结合鲁棒表示编码和表示融合进行表情分类，结果表明该模型在 Aff-Wild2 数据集上表现有效。

Mar, 2022

通过分离三维表情与身份来实现野外实时面部表情识别

本研究提出了一种基于深度学习和面部视频数据的情感检测方法，使用 Convolutional Neural Network 训练一个能够估计三维表情模型参数的模型，并结合情感分类器，能够高效准确地从动态图像中识别面部表情，且在基本情感和压力情感的识别任务中超过了其他方法。

May, 2020

基于 Transformer 的多模态信息融合用于面部表情分析

本研究介绍了一种基于多模态特征和 Transformer 的统一框架，用于情感行为分析和表情识别任务，同时运用数据平衡和增强方法进一步提高模型性能。实验证明，该方法在 ABAW3 竞赛中在 EXPR 和 AU 方面排名第一。

Mar, 2022

使用掩码学习的 Transformer 情感识别

通过使用 Vision Transformer 和 Transformer 模型，该研究关注情感的 Valence-Arousal 估计、各种面部表情的识别和基础肌肉运动的动作元的检测，提出了一种基于 Transformer 的新框架来最大化对时间和空间特征的理解，并引入了基于随机帧遮罩的学习技术以及针对不平衡数据的 Focal 损失的应用，增强了情绪和行为分析在实际场景中的准确性和适用性，预计对情感计算和深度学习方法的发展有所助益。

Mar, 2024

数据增强和迁移学习应用于面部表情识别

通过使用数据增强技术和生成对抗网络模型，将初步训练的卷积神经网络与不同架构的预训练模型的方法应用于面部表情识别任务，使得模型的泛化能力得到提高，从而实现对面部表情的自动识别，准确率达到 85%。

Feb, 2024

野外情感语音识别中的跨模态转移

本篇研究提出一种基于面部表情的情感识别的无监督学习方法，通过跨模态蒸馏将面部表情标注传递到语音领域，用于语音情感识别，实现了在未标注音频数据下学习语音情感表示的目标。

Aug, 2018

野外情感维度识别的联合多模态变压器

通过使用多模态 Transformer 架构，全面利用视频中视觉和听觉模态之间的交互和内部依赖关系，以识别音频视觉表情和声音模式，该模型在 Affwild2 数据集上表现出优越性能。

Mar, 2024

Video Swin Transformer

本文介绍了一种针对视频领域的区域局部性 Transformer 架构，通过使用 Swin Transformer 设计来实现，同时利用预训练模型的威力，取得了行动识别和时间建模等广泛的视频识别基准的最新准确性。

Jun, 2021

语音 Swin-Transformer: 探索一种具有平移窗口的分层 Transformer 用于语音情感识别

该研究提出了一种基于分层性 Speech Swin-Transformer 的声音情感识别方法，通过分级的窗口聚合多尺度情感特征，将 Transformer 的感知范围从帧级扩展到片段级，实验结果表明该方法优于现有的技术。

Jan, 2024