Jan, 2024

Media2Face: 借助多模态引导生成共话脸部动画

TL;DR从语音中合成 3D 面部动画引起了极大的关注。我们通过三位一体的方法来应对这一挑战,首先介绍了广义神经参数面部特征 (GNPFA),然后利用 GNPFA 从大量的视频中提取高质量的表情和准确的头部姿势,最后,我们提出了 Media2Face,这是一个在 GNPFA 潜在空间中的扩散模型,用于生成与音频、文本和图像相关的共语面部动画。大量实验表明,我们的模型不仅在面部动画合成方面具有高保真性,还扩大了 3D 面部动画的表现力和风格适应性。