Mar, 2024

使用掩码学习的 Transformer 情感识别

TL;DR通过使用 Vision Transformer 和 Transformer 模型,该研究关注情感的 Valence-Arousal 估计、各种面部表情的识别和基础肌肉运动的动作元的检测,提出了一种基于 Transformer 的新框架来最大化对时间和空间特征的理解,并引入了基于随机帧遮罩的学习技术以及针对不平衡数据的 Focal 损失的应用,增强了情绪和行为分析在实际场景中的准确性和适用性,预计对情感计算和深度学习方法的发展有所助益。