Boyi Li, Jathushan Rajasegaran, Yossi Gandelsman, Alexei A. Efros, Jitendra Malik
TL;DR利用扩散模型为给定目标 3D 动作序列中的人物从单个图像创建动画的框架,包括学习关于人体和服装不可见部分的先验知识以及呈现适当的身体姿势和纹理的新姿态。
Abstract
In this paper, we present a diffusion model-based framework for animating
people from a single image for a given target 3d motion sequence. Our approach
has two core components: a) learning priors about invisible
本研究工作旨在通过将 3D 可变模型整合到最新的多视角一致性扩散方法中,增强生成扩散模型在创建可控、照片般逼真的人类头像任务中的质量和功能。我们的实验证明了在基于关节的 3D 模型的准确约束下,生成流水线模型在单图像的新视角合成任务上的性能改进,更重要的是,这种整合实现了面部表情和身体姿势控制在生成过程中的无缝和准确融入。据我们所知,我们提出的框架是第一个允许从未见过的单一图像创建完全 3D 一致、可动画和照片般逼真的人类头像的扩散模型;广泛的定量和定性评估证明了我们的方法在新视角和新表情合成任务上相对于现有最先进的头像创建模型的优势。
通过在潜在扩散框架中利用 3D 人体参数模型,介绍了一种人像动画的方法,以增强当前人体生成技术中的形状对齐和运动引导,通过捕捉源视频中的复杂人体几何和运动特征,利用深度图像、法线图和语义图来丰富潜在扩散模型的综合三维形状和详细姿势属性的条件,通过多层运动融合模块在空间域中融合形状和运动潜在表示,并通过以 3D 人体参数模型作为运动引导来执行参变形对齐,实验证明该方法能够生成准确捕捉姿势和形状变化的高质量人体动画,并且在所提出的数据集上具有优越的泛化能力。