Nov, 2023

文本和图像引导的 4D 场景生成的统一方法

TL;DR通过使用扩散生成模型,我们提出了 Dream-in-4D 方法,可以有效地实现从文本和图像生成动态的 3D 场景,该方法包括利用扩散指导学习高质量的静态 3D 资源、使用可变形神经光辐射场将学习的静态资源与形变分离、以及使用多分辨率特征网格和位移总变差损失来学习具有视频扩散指导的运动。通过用户偏好研究,我们证明了与基线方法相比,我们的方法在图像质量、动态一致性和文本保真度方面显著提高了文本到 4D 生成的效果。由于其运动分离表示,我们的方法还可以轻松应用于可控的生成,其中外观由一个或多个图像定义,无需修改运动学习阶段。因此,我们的方法首次提供了一种统一的方法,用于文本到 4D、图像到 4D 和个性化 4D 生成任务。