文字图像条件扩散用于一致的文字到3D生成

Dec, 2023

文字图像条件扩散用于一致的文字到3D生成

Text-Image Conditioned Diffusion for Consistent Text-to-3D Generation

Yuze He, Yushi Bai, Matthieu Lin, Jenny Sheng, Yubin Hu...

TL;DR通过将预训练的二维扩散模型引入神经光辐射场（NeRFs），文本到三维生成方法取得了巨大的进展，其中许多最先进的方法通常使用得分蒸馏采样（SDS）来优化NeRF表示，该方法通过预训练的文本条件的二维扩散模型（例如ImData）监督NeRF优化。然而，由这种预训练扩散模型提供的监督信号仅依赖于文本提示，并不限制多视角一致性。为了将跨视角一致性引入扩散先验中，一些最近的工作通过多视角数据微调二维扩散模型，但仍缺乏细粒度的视图连贯性。为了解决这个挑战，我们将多视角图像条件纳入NeRF优化的监督信号中，明确强制执行细粒度的视图一致性。通过这种更强的监督，我们提出的文本到三维方法有效地减轻了由于过高密度而产生的浮动点和由于密度不足而形成的完全空白空间。我们在T$^3$Bench数据集上的定量评估表明，我们的方法在现有的文本到三维方法中达到了最先进的性能。我们将公开发布代码。

Abstract

By lifting the pre-trained 2D diffusion models into neural radiance fields (NeRFs), text-to-3d generation methods have made great progress. Many state-of-the-art approaches usually apply →