Jun, 2024

用潜在扩散模型在几秒钟内对 3D 高斯场景进行采样

TL;DR我们提出了一个通过 2D 图像数据训练的 3D 场景潜在扩散模型,首先设计了一个将多视图图像映射到 3D 高斯斑点并在同时构建这些斑点的压缩潜在表示的自编码器,然后在潜在空间上培训多视图扩散模型,以学习一种高效的生成模型。该方法不需要对象掩码或深度信息,适用于具有任意相机位置的复杂场景。我们在两个大规模复杂真实世界场景数据集 MVImgNet 和 RealEstate10K 上进行了仔细实验。与非潜在扩散模型和早期 NeRF-based 生成模型相比,我们的方法无论是从头开始,从单个输入视图开始还是从稀疏输入视图开始,都能在 0.2 秒内生成 3D 场景,并产生多样且高质量的结果,速度提高了一个数量级。