Mar, 2024

Talk3D:个性化 3D 生成先验的高保真说话肖像合成

TL;DRTalk3D 是一种新的音频驱动的说话头合成框架,通过有效地采用预训练的 3D 感知生成先验模型,可以忠实地重建其合理的面部几何形状。通过音频驱动的注意力 U-Net 架构,我们的模型预测 NeRF 空间中由音频驱动的动态面部变化,并由与音频无关的调节令牌调制,有效地解耦与音频特征无关的变化。与现有方法相比,我们的方法在生成逼真的面部几何形状方面表现出色,即使在极端的头部姿势下也能如此。我们还进行了广泛的实验证明我们的方法在定量和定性评估方面超越了现有的最新基准。