Mar, 2024

VLOGGER: 身体化头像合成的多模态扩散

TL;DR提出了一种名为 VLOGGER 的从单个人物输入图像进行音频驱动的人体视频生成方法,该方法通过扩展最新的扩散生成模型,在人体到 3D 动作扩散模型和扩散式架构两方面加入空间和时间控制,实现了通过高层人脸和身体表征对可变长度的高质量视频生成的支持。使用新的且更大规模(800,000 个身份)的 MENTOR 数据集,训练并评估了主要技术贡献,VLOGGER 在图像质量、身份保持、时间一致性以及生成上半身手势等方面都优于现有的最先进方法,并展示了在视频编辑和个性化方面的应用。