The one-shot talking-head synthesis task aims to animate a source image to
another pose and expression, which is dictated by a driving frame. Recent
methods rely on warping the appearance feature extracted from the source, by
using motion fields estimated from the sparse keypoints, tha
本研究提出了一种新颖的 3D 感知说话人视频动作迁移网络 Head3D,通过生成可视化可解释的 3D 标准头部,从 2D 主体帧中充分利用主体外貌信息,以适应驱动视频帧对齐。我们的方法的一个关键组成部分是自我监督的 3D 头部几何学习模块,能够从 2D 主体视频帧预测头部姿势和深度图。此外,我们还采用基于注意力的融合网络,将主体帧的背景和其他细节与 3D 主体头部相结合,生成合成目标视频。我们在两个公共说话人视频数据集上进行了广泛实验,结果表明 Head3D 在实际的跨身份设置中优于 2D 和 3D 先前方法,有证据显示它能够轻松适应受控姿态的新视图合成任务。