Nov, 2023

3D 感知的讲话头部视频动作转移

TL;DR本研究提出了一种新颖的 3D 感知说话人视频动作迁移网络 Head3D,通过生成可视化可解释的 3D 标准头部,从 2D 主体帧中充分利用主体外貌信息,以适应驱动视频帧对齐。我们的方法的一个关键组成部分是自我监督的 3D 头部几何学习模块,能够从 2D 主体视频帧预测头部姿势和深度图。此外,我们还采用基于注意力的融合网络,将主体帧的背景和其他细节与 3D 主体头部相结合,生成合成目标视频。我们在两个公共说话人视频数据集上进行了广泛实验,结果表明 Head3D 在实际的跨身份设置中优于 2D 和 3D 先前方法,有证据显示它能够轻松适应受控姿态的新视图合成任务。