May, 2024

双立体:手语三维动作重建与生成

TL;DR通过使用基于变分自编码器的 Transformer 结构和课程学习策略,我们提出了 SignAvatar 框架,在缺乏真实世界中 3D 手语数据、手语动作复杂微妙性和多模态手语语义交叉理解的情况下具备单词级手语重建和生成的能力。我们贡献的 ASL3DWord 数据集包含了身体、手部和面部的 3D 关节旋转数据,通过大量实验展示了 SignAvatar 在重建和自动生成方面的卓越能力。