Swin Transformer 面部表情识别
该研究提出了一种基于单一的 Swin Transformer 的多功能算法,用于同时进行人脸识别、面部表情识别、年龄估计和面部属性估计,并通过多层级通道注意力模块适应性地选择最佳级别和通道上的特征,以提高预测准确性、数据效率和训练速度。
Aug, 2023
本研究使用 Transformer 机制,结合鲁棒表示编码和表示融合进行表情分类,结果表明该模型在 Aff-Wild2 数据集上表现有效。
Mar, 2022
本研究提出了一种基于深度学习和面部视频数据的情感检测方法,使用 Convolutional Neural Network 训练一个能够估计三维表情模型参数的模型,并结合情感分类器,能够高效准确地从动态图像中识别面部表情,且在基本情感和压力情感的识别任务中超过了其他方法。
May, 2020
本研究介绍了一种基于多模态特征和 Transformer 的统一框架,用于情感行为分析和表情识别任务,同时运用数据平衡和增强方法进一步提高模型性能。实验证明,该方法在 ABAW3 竞赛中在 EXPR 和 AU 方面排名第一。
Mar, 2022
通过使用 Vision Transformer 和 Transformer 模型,该研究关注情感的 Valence-Arousal 估计、各种面部表情的识别和基础肌肉运动的动作元的检测,提出了一种基于 Transformer 的新框架来最大化对时间和空间特征的理解,并引入了基于随机帧遮罩的学习技术以及针对不平衡数据的 Focal 损失的应用,增强了情绪和行为分析在实际场景中的准确性和适用性,预计对情感计算和深度学习方法的发展有所助益。
Mar, 2024
通过使用数据增强技术和生成对抗网络模型,将初步训练的卷积神经网络与不同架构的预训练模型的方法应用于面部表情识别任务,使得模型的泛化能力得到提高,从而实现对面部表情的自动识别,准确率达到 85%。
Feb, 2024
本篇研究提出一种基于面部表情的情感识别的无监督学习方法,通过跨模态蒸馏将面部表情标注传递到语音领域,用于语音情感识别,实现了在未标注音频数据下学习语音情感表示的目标。
Aug, 2018
通过使用多模态 Transformer 架构,全面利用视频中视觉和听觉模态之间的交互和内部依赖关系,以识别音频视觉表情和声音模式,该模型在 Affwild2 数据集上表现出优越性能。
Mar, 2024
本文介绍了一种针对视频领域的区域局部性 Transformer 架构,通过使用 Swin Transformer 设计来实现,同时利用预训练模型的威力,取得了行动识别和时间建模等广泛的视频识别基准的最新准确性。
Jun, 2021
该研究提出了一种基于分层性 Speech Swin-Transformer 的声音情感识别方法,通过分级的窗口聚合多尺度情感特征,将 Transformer 的感知范围从帧级扩展到片段级,实验结果表明该方法优于现有的技术。
Jan, 2024