LRM:单幅图像到3D的大规模重建模型
我们提出了一种无姿势大重建模型(PF-LRM),可以从少数非姿势图像中重建三维物体,即使视觉重叠很少,同时在单个A100 GPU上估计相对相机姿势,仅需约1.3秒。PF-LRM是一种高度可扩展的方法,利用自注意力块在三维物体标记和二维图像标记之间交换信息;我们为每个视图预测粗略的点云,然后使用可微的透视-n-点(PnP)求解器获得相机姿势。当在约1M个多视图姿势数据上进行训练时,PF-LRM表现出强大的跨数据集泛化能力,并在各种未见评估数据集上以姿势预测准确性和三维重建质量大幅超越基线方法。我们还展示了模型在下游文本/图像到三维任务中的适用性,并具有快速的前馈推理。项目网站位于: this https URL。
Nov, 2023
SCALAR-NeRF 是一个用于大规模神经场景重建的新框架,它采用编码器-解码器架构,通过处理3D点坐标生成编码特征,并生成包括有符号距离和颜色的几何值。通过在整个图像数据集上训练一个粗略全局模型,将图像分割成较小的块,每个块采用专用的局部模型。使用本地模型的特征空间中的全局模型解码器来提升不同块之间的重叠区域。通过有效且高效地融合这些局部模型的输出,我们的方法在大规模场景重建方面优于现有的NeRF方法,并展示了可扩展性。
Nov, 2023
利用Human-LRM模型,我们可以从一张单一图像中预测人类神经辐射场。通过使用包含3D扫描和多视角捕获的大型数据集进行训练,我们的方法展现出了惊人的适应性。此外,为了增强模型在野外场景(尤其是存在遮挡情况下)中的适用性,我们提出了一种将多视角重建转化为单视角的新策略,即条件三平面扩散模型。这个生成式扩展方法解决了从单个视角观察时人体形状的固有变化,并使得从遮挡图像中重建完整的人体成为可能。通过大量实验证明,Human-LRM在多个基准测试中显著超越了以往的方法。
Jan, 2024
提出了MeshLRM,一种基于LRM的新方法,在不到一秒的时间内仅使用四个输入图像进行高质量网格的重建。与以往的大型重建模型(LRMs)不同,MeshLRM在LRM框架中融入了可微分网格提取和渲染,可通过微调预训练的NeRF LRM进行端到端的网格重建。此外,通过简化先前LRMs中的多个复杂设计,我们改进了LRM架构。MeshLRM的NeRF初始化使用低分辨率和高分辨率图像进行顺序训练;这种新的LRM训练策略实现了显著更快的收敛速度,从而在更少的计算量下获得更好的质量。我们的方法在稀疏视图输入下实现了最先进的网格重建,并且还可应用于很多下游应用,包括文本到三维和单图像到三维的生成。项目页面:此链接。
Apr, 2024
我们提出了GS-LRM,一个可扩展的大型重建模型,可以在单个A100 GPU上从2-4个稀疏图像中预测高质量的3D高斯原语,并在0.23秒内完成。我们的模型采用了非常简单的基于transformer的架构;我们对输入的图像进行了分块处理,通过一系列的transformer块将连接的多视图图像令牌传递,并直接从这些令牌解码出每像素的高斯参数以进行可微渲染。与之前仅能重建对象的低秩模型不同,GS-LRM通过预测每像素的高斯分布,能够自然地处理具有不同尺度和复杂性的场景。我们展示了我们的模型可以适用于对象和场景捕捉,并通过在Objaverse和RealEstate10K上进行训练,在这两种情景下,我们的模型都比现有的最先进方法表现得更好。我们还展示了我们模型在下游3D生成任务中的应用。我们的项目网页位于:this https URL。
Apr, 2024
我们提出了一种新的方法,从多视角图像中进行3D网格重建。我们的方法借鉴了像LRM这样的大型重建模型,使用了基于Transformer的三面体生成器和在多视角图像上进行训练的神经辐射场(NeRF)模型。然而,在我们的方法中,我们引入了一些重要的修改,以显著提高3D重建质量。
Jun, 2024
通过引入跨视图一致的交叉注意力机制和利用三维先验信息,提出了一种高效的多视角大型重建模型(M-LRM),能够从多视图中以三维感知的方式高质量地重建三维形状,并且相比于LRM能够生成分辨率为$128 imes 128$的三平面NeRF,具有更高的保真度和训练收敛速度。
Jun, 2024
该研究介绍了Real3D,使用单视图真实世界图像训练的第一个大型重建模型系统,通过引入自主训练框架和无监督的损失函数,同时利用现有的合成数据和多样化的单视图真实图像,提高了性能和扩大了图像数据的规模,实验结果表明Real3D在不同的评估设置中优于以前的工作。
Jun, 2024
我们提出了LRM-Zero,它是一个完全基于合成3D数据进行训练的大型重建模型,可以实现高质量的稀疏视角3D重建。LRM-Zero的核心是我们的程序化3D数据集Zeroverse,它是通过简单的基本形状进行自动合成,并进行随机纹理和增强处理(例如,高度场、布尔差异和线框)。与前期的3D数据集(例如Objaverse)不同,Zeroverse完全忽略了现实全局语义,但在复杂的几何和纹理细节上与真实物体局部相似甚至更加复杂。我们证明了我们的LRM-Zero,在使用我们完全合成的Zeroverse进行训练时,可以在重建真实世界对象方面达到与使用Objaverse训练的模型竞争性的高视觉质量。我们还分析了对于LRM-Zero的能力和训练稳定性有贡献的Zeroverse的几个关键设计选择。我们的工作表明,作为3D视觉的核心任务之一,可能可以不考虑真实世界物体的语义来解决3D重建问题。Zeroverse的程序化合成代码和交互式可视化可在此URL中获取。
Jun, 2024
本研究解决了传统模型在大场景重建中只能处理少量输入图像的瓶颈问题。我们提出的Long-LRM模型,结合现代Mamba2块与经典变换块,能够在1.3秒内处理32张960x540分辨率的图像,显著提升了处理效率与质量。实验表明,该方法在DL3DV-140和Tanks and Temples等大规模场景数据集上的表现与基于优化的方法相当,但效率提高了两个数量级。
Oct, 2024