Direct3D：基于3D潜在扩散变换的可扩展图像到3D生成

May, 2024

Direct3D：基于3D潜在扩散变换的可扩展图像到3D生成

Direct3D: Scalable Image-to-3D Generation via 3D Latent Diffusion Transformer

Shuang Wu, Youtian Lin, Feihu Zhang, Yifei Zeng, Jingxi Xu...

TL;DR从文本和图像生成高质量的3D模型一直是具有挑战性的，本文介绍了一种直接的3D生成模型(Direct3D)，它可以缩放到野外输入图像，而不需要多视图扩散模型或SDS优化。我们的方法包括两个主要组成部分:一个直接的3D变分自动编码器(D3D-VAE)和一个直接的3D扩散变换器(D3D-DiT)。D3D-VAE将高分辨率的3D形状高效编码成紧凑连续的潜在三平面空间，而我们的方法通过半连续表面采样策略直接监督解码几何形状，与以往依赖渲染图像作为监督信号的方法不同。D3D-DiT对编码的3D潜在分布进行建模，并特别设计以融合三个特征图的位置信息，从而实现了可扩展到大规模3D数据集的原生3D生成模型。此外，我们引入了一种创新的从图像到3D的生成流程，结合语义和像素级图像条件，使模型能够生成与提供的条件图像一致的3D模型。大量实验证明，我们大规模预训练的Direct3D相对于以前的图像到3D方法具有更好的生成质量和泛化能力，从而树立了3D内容创建的新的最先进水平。

Abstract

Generating high-quality 3d assets from text and images has long been challenging, primarily due to the absence of scalable 3D representations capable of capturing intricate geometry distributions. In this work, we introduce →