Jun, 2024

Speech2UnifiedExpressions: 从可负担的输入同步合成言语情感表情、面部表情和身体表情

TL;DR使用 RGB 视频数据,我们提出了一种基于多模态学习的方法,可以同时合成数字角色的共语言面部表情和上半身动作。我们的方法从视频数据直接估计稀疏的面部关键点和上半身关节,并根据说话者的面部动作和身体关节动作合成合适的情感角色动作。通过对多个评估指标进行全面定量和定性实验证明,我们的方法具有低重建误差,能够为数字角色产生多样化的面部表情和身体动作。