May, 2024
Direct3D:基于3D潜在扩散变换的可扩展图像到3D生成
Direct3D: Scalable Image-to-3D Generation via 3D Latent Diffusion
Transformer
TL;DR从文本和图像生成高质量的3D模型一直是具有挑战性的,本文介绍了一种直接的3D生成模型(Direct3D),它可以缩放到野外输入图像,而不需要多视图扩散模型或SDS优化。我们的方法包括两个主要组成部分:一个直接的3D变分自动编码器(D3D-VAE)和一个直接的3D扩散变换器(D3D-DiT)。D3D-VAE将高分辨率的3D形状高效编码成紧凑连续的潜在三平面空间,而我们的方法通过半连续表面采样策略直接监督解码几何形状,与以往依赖渲染图像作为监督信号的方法不同。D3D-DiT对编码的3D潜在分布进行建模,并特别设计以融合三个特征图的位置信息,从而实现了可扩展到大规模3D数据集的原生3D生成模型。此外,我们引入了一种创新的从图像到3D的生成流程,结合语义和像素级图像条件,使模型能够生成与提供的条件图像一致的3D模型。大量实验证明,我们大规模预训练的Direct3D相对于以前的图像到3D方法具有更好的生成质量和泛化能力,从而树立了3D内容创建的新的最先进水平。