LT3SD:用于三维场景扩散的潜在树模型
本文提出了RenderDiffusion,这是第一个用于3D生成和推断的扩散模型,使用仅有的单眼2D监督进行训练,并采用新颖的图像去噪架构进行中间的三维表示,以提供强烈归纳结构,同时仅需要2D监督。我们在FFHQ、AFHQ、ShapeNet和CLEVR数据集上评估了RenderDiffusion,展示了生成3D场景和从2D图像中推理3D场景的竞争性表现。此外,我们的扩散型方法还使我们能够使用2D修复来编辑3D场景。
Nov, 2022
本文提出了一种扩展离散扩散模型的方法,用于生成3D场景,并在场景级别上使用分类分布来指定多个对象。同时,使用潜在扩散模型可以降低训练和部署的计算成本。作者还使用该模型进行了场景完成的任务,并在实验中证明了该模型生成的场景的合理性和任务完成的优越性。
Jan, 2023
使用基于扩散的模型,结合现有的二维扩散骨架和三维特征体,进行三维感知的图像生成,同时具备自回归生成3D一致的序列能力。在合成渲染图像和实际物体上展示了最先进的效果。
Apr, 2023
提出了一种名为 NeuralField-LDM 的生成模型,它能够合成复杂的 3D 环境,并取得了比目前现有模型更显著的进步。该模型使用自动编码器训练场景图片,通过特征体素格点表示神经场,并进一步利用潜在自动编码器压缩、映射体素格点至潜在空间,并采用分层扩散模型完成 3D 场景生成管线。此外,展示了如何应用 NeuralField-LDM 在条件场景生成、场景修复和场景风格变化等 3D 内容创作应用领域。
Apr, 2023
BlockFusion是一种扩展三维场景的扩散模型,通过三维场景网格的剪裁和特征提取,在潜在三平面空间中进行扩散操作,从而生成高质量、多样化的三维场景。
Jan, 2024
通过引入第一种能够快速进行真实世界三维场景的详细重建和生成的推广模型,我们在本研究中提出了三个贡献:首先,引入了一种新的神经场景表示方法IB-planes,能够有效准确地表示大型三维场景,并在需要时动态分配更多容量以捕捉每张图像中可见的细节;其次,我们提出了一种去噪扩散框架,通过仅使用二维图像而不需要额外的监督信号(如掩码或深度)学习对这种新型三维场景表示的先验知识,从而支持三维重建和生成;第三,我们开发了一种避免将基于图像渲染与扩散模型集成时产生平凡三维解决方案的原则性方法,即通过丢弃某些图像的表示。我们在几个具有挑战性的真实和合成图像数据集上评估了该模型,并在生成、新视图合成和三维重建方面展示了优越的结果。
Feb, 2024
我们提出了一个两阶段的文本到3D生成系统,名为3DTopia,它使用混合扩散先验在5分钟内生成高质量的通用3D资产。第一阶段直接从3D数据学习的3D扩散先验中采样,由文本条件的三视图潜在扩散模型提供动力,快速生成用于快速原型设计的粗糙3D样本。第二阶段利用2D扩散先验进一步优化第一阶段中粗糙3D模型的纹理。优化包括潜在空间和像素空间的优化,用于生成高质量的纹理。为了促进所提出系统的训练,我们通过结合视觉语言模型和大型语言模型清洗和加标最大的开源3D数据集Objaverse。实验证据定性和定量地展示了所提出系统的性能。我们的代码和模型可在此https网址获得。
Mar, 2024
基于视频扩散模型和几何一致性先验的自动生成方法在3D生成方面取得了很大突破,能够生成高质量的网格和3D高斯帧,并且在场景级别的新视角合成方面取得了优越的性能表现。
Mar, 2024
从文本和图像生成高质量的3D模型一直是具有挑战性的,本文介绍了一种直接的3D生成模型(Direct3D),它可以缩放到野外输入图像,而不需要多视图扩散模型或SDS优化。我们的方法包括两个主要组成部分:一个直接的3D变分自动编码器(D3D-VAE)和一个直接的3D扩散变换器(D3D-DiT)。D3D-VAE将高分辨率的3D形状高效编码成紧凑连续的潜在三平面空间,而我们的方法通过半连续表面采样策略直接监督解码几何形状,与以往依赖渲染图像作为监督信号的方法不同。D3D-DiT对编码的3D潜在分布进行建模,并特别设计以融合三个特征图的位置信息,从而实现了可扩展到大规模3D数据集的原生3D生成模型。此外,我们引入了一种创新的从图像到3D的生成流程,结合语义和像素级图像条件,使模型能够生成与提供的条件图像一致的3D模型。大量实验证明,我们大规模预训练的Direct3D相对于以前的图像到3D方法具有更好的生成质量和泛化能力,从而树立了3D内容创建的新的最先进水平。
May, 2024
我们提出了一个通过2D图像数据训练的3D场景潜在扩散模型,首先设计了一个将多视图图像映射到3D高斯斑点并在同时构建这些斑点的压缩潜在表示的自编码器,然后在潜在空间上培训多视图扩散模型,以学习一种高效的生成模型。该方法不需要对象掩码或深度信息,适用于具有任意相机位置的复杂场景。我们在两个大规模复杂真实世界场景数据集MVImgNet和RealEstate10K上进行了仔细实验。与非潜在扩散模型和早期NeRF-based生成模型相比,我们的方法无论是从头开始,从单个输入视图开始还是从稀疏输入视图开始,都能在0.2秒内生成3D场景,并产生多样且高质量的结果,速度提高了一个数量级。
Jun, 2024