May, 2024

4Diffusion: 多视角视频扩散模型的 4D 生成

TL;DR我们提出了一种新颖的 4D 生成管道,名为 4Diffusion,旨在从单目视频中生成空间时间一致的 4D 内容。通过将可学习的运动模块与冻结的 3D 感知扩散模型结合,我们设计了一个为多视图视频生成量身定制的统一扩散模型,以捕捉多视图空间时间相关性。通过在精心策划的数据集上训练,我们的扩散模型获得了合理的时间一致性,并固有地保留了 3D 感知扩散模型的泛化性和空间一致性。随后,我们提出了基于我们的多视图视频扩散模型的 4D 感知得分蒸馏采样损失,以优化由动态 NeRF 参数化的 4D 表示,从而消除多个扩散模型引起的差异,实现生成空间时间一致的 4D 内容。此外,我们设计了一个锚点损失,以增强外观细节并促进动态 NeRF 的学习。广泛的定性和定量实验证明,我们的方法相比之前的方法具有更好的性能。