ControLRM:通过大型重建模型实现快速可控的3D生成
Control3Diff是结合扩散模型和3D GAN的3D扩散模型,其将潜在空间直观建模并允许通过控制输入快速生成3D图像。该方法在多个数据集中表现优秀,包括FFHQ, AFHQ, and ShapeNet。
Apr, 2023
我们提出了第一个大规模重建模型 (LRM),能够在仅5秒内从单个输入图像预测对象的3D模型。与许多以类别为基础在小规模数据集(如ShapeNet)上训练的先前方法不同,LRM采用一个高度可扩展的基于transformer的架构,具有5亿个可学习参数,能够直接从输入图像预测神经辐射场(NeRF)。我们以端到端的方式在包含大约100万个对象的海量多视图数据上训练我们的模型,包括Objaverse的合成渲染和MVImgNet的真实采集数据。这种高容量模型和大规模的训练数据的组合使得我们的模型具有很强的通用性,并能够从各种测试输入中生成高质量的3D重建结果,包括真实世界中的野外捕捉和生成模型的图像。可在此网站找到视频演示和可交互的3D网格:[https://this_URL]。
Nov, 2023
大规模文本到图像扩散模型的最新进展在文本到三维生成领域取得了重大突破,仅通过给定的文本提示从零开始创作三维内容。然而,现有的文本到三维技术在创作过程中缺乏一项关键能力:根据用户的需求规范(如草图)对合成的三维内容进行交互式控制和塑造。为了解决这个问题,我们首次尝试在条件上添加手绘草图的文本到三维生成,即Control3D,以增强用户的可控性。具体而言,我们通过改进的2D条件扩散模型(ControlNet)来引导作为NeRF参数化的三维场景的学习,以使每个三维场景视角与给定的文本提示和手绘草图对齐。此外,我们利用预训练的可微分照片到草图模型直接估计合成三维场景上渲染图像的草图。此类估计的草图以及每个采样视角进一步被强制与给定的草图在几何上保持一致,从而实现了更好的可控文本到三维生成。通过广泛的实验证明,我们的提议可以生成与输入的文本提示和草图紧密对齐的准确忠实的三维场景。
Nov, 2023
通过引入多视角ControlNet和强化学习模型ControlDreamer,本研究在文本指导下实现了创意几何和风格的3D建模,同时提出了一个全面的3D风格编辑基准,证明该方法在质量和度量上优于现有的文本生成3D方法。
Dec, 2023
通过前向推理,我们介绍了一种从单张图像高效生成三维模型的新方法,利用基于Transformer的网络,即点解码器和三面解码器,通过混合的Triplane-Gaussian中间表示重建三维物体,从而在渲染速度和渲染质量上实现了平衡,并比之前的技术在质量和运行时间方面取得了更好的效果。
Dec, 2023
本研究主要关注在控制性文本生成3D场景方面的多视图控制网络架构,该网络结合额外的输入条件,如边缘、深度、法线和素描图,使用局部和全局嵌入来控制基础扩散模型,并通过优化实现3D生成,最终实现了高质量、可控的3D内容的生成。
Mar, 2024
从文本和图像生成高质量的3D模型一直是具有挑战性的,本文介绍了一种直接的3D生成模型(Direct3D),它可以缩放到野外输入图像,而不需要多视图扩散模型或SDS优化。我们的方法包括两个主要组成部分:一个直接的3D变分自动编码器(D3D-VAE)和一个直接的3D扩散变换器(D3D-DiT)。D3D-VAE将高分辨率的3D形状高效编码成紧凑连续的潜在三平面空间,而我们的方法通过半连续表面采样策略直接监督解码几何形状,与以往依赖渲染图像作为监督信号的方法不同。D3D-DiT对编码的3D潜在分布进行建模,并特别设计以融合三个特征图的位置信息,从而实现了可扩展到大规模3D数据集的原生3D生成模型。此外,我们引入了一种创新的从图像到3D的生成流程,结合语义和像素级图像条件,使模型能够生成与提供的条件图像一致的3D模型。大量实验证明,我们大规模预训练的Direct3D相对于以前的图像到3D方法具有更好的生成质量和泛化能力,从而树立了3D内容创建的新的最先进水平。
May, 2024
用于图像到3D生成的一种混合Fourier分数蒸馏优化方法,通过优化一组3D高斯函数来确保几何一致性,并利用Fourier变换的2D先验知识提高视觉质量,结合现有的3D生成方法,实现了高效生成高质量3D物体的目标。
May, 2024
该研究介绍了Real3D,使用单视图真实世界图像训练的第一个大型重建模型系统,通过引入自主训练框架和无监督的损失函数,同时利用现有的合成数据和多样化的单视图真实图像,提高了性能和扩大了图像数据的规模,实验结果表明Real3D在不同的评估设置中优于以前的工作。
Jun, 2024
我们提出了LRM-Zero,它是一个完全基于合成3D数据进行训练的大型重建模型,可以实现高质量的稀疏视角3D重建。LRM-Zero的核心是我们的程序化3D数据集Zeroverse,它是通过简单的基本形状进行自动合成,并进行随机纹理和增强处理(例如,高度场、布尔差异和线框)。与前期的3D数据集(例如Objaverse)不同,Zeroverse完全忽略了现实全局语义,但在复杂的几何和纹理细节上与真实物体局部相似甚至更加复杂。我们证明了我们的LRM-Zero,在使用我们完全合成的Zeroverse进行训练时,可以在重建真实世界对象方面达到与使用Objaverse训练的模型竞争性的高视觉质量。我们还分析了对于LRM-Zero的能力和训练稳定性有贡献的Zeroverse的几个关键设计选择。我们的工作表明,作为3D视觉的核心任务之一,可能可以不考虑真实世界物体的语义来解决3D重建问题。Zeroverse的程序化合成代码和交互式可视化可在此URL中获取。
Jun, 2024