May, 2024

Dual3D: 双模多视角潜在扩散下高效一致的文本到 3D 生成

TL;DR我们提出了 Dual3D,一种新颖的文本到 3D 生成框架,仅需 1 分钟从文本生成高质量的 3D 资产。其中关键组件是双模态多视图潜在扩散模型,通过单个潜在去噪网络可以有效去噪多视图潜在,在 3D 模式下可以生成一致渲染的三面神经表面实现去噪。我们通过预训练的文本到图像潜在扩散模型调整多数模块,避免了从头训练的昂贵代价。同时,我们提出了双模态切换推理策略,仅使用 1/10 的去噪步骤和 3D 模式,在仅 10 秒的时间内成功生成高质量的 3D 资产,同时可以通过高效的纹理细化过程进一步增强 3D 资产的纹理,大量实验证明我们的方法在显著减少生成时间的同时提供了最先进的性能。