M-LRM: 多视角大重建模型
我们提出了第一个大规模重建模型 (LRM),能够在仅 5 秒内从单个输入图像预测对象的 3D 模型。与许多以类别为基础在小规模数据集(如 ShapeNet)上训练的先前方法不同,LRM 采用一个高度可扩展的基于 transformer 的架构,具有 5 亿个可学习参数,能够直接从输入图像预测神经辐射场(NeRF)。我们以端到端的方式在包含大约 100 万个对象的海量多视图数据上训练我们的模型,包括 Objaverse 的合成渲染和 MVImgNet 的真实采集数据。这种高容量模型和大规模的训练数据的组合使得我们的模型具有很强的通用性,并能够从各种测试输入中生成高质量的 3D 重建结果,包括真实世界中的野外捕捉和生成模型的图像。可在此网站找到视频演示和可交互的 3D 网格:[https://this_URL]。
Nov, 2023
该研究介绍了一种名为几何感知大型重建模型(GeoLRM)的方法,该方法可以使用 512k 个高斯函数和 21 个输入图像在仅需 11 GB 的 GPU 内存中预测高质量的资源。该模型通过引入一种新颖的三维感知变换器结构和可变形交叉注意机制来解决现有方法在表达低分辨率和提高质量的密集视图方面的局限性,实现了三维结构和二维图像之间的有效融合,并在三维生成任务中表现出显著的性能优势。
Jun, 2024
提出了 MeshLRM,一种基于 LRM 的新方法,在不到一秒的时间内仅使用四个输入图像进行高质量网格的重建。与以往的大型重建模型(LRMs)不同,MeshLRM 在 LRM 框架中融入了可微分网格提取和渲染,可通过微调预训练的 NeRF LRM 进行端到端的网格重建。此外,通过简化先前 LRMs 中的多个复杂设计,我们改进了 LRM 架构。MeshLRM 的 NeRF 初始化使用低分辨率和高分辨率图像进行顺序训练;这种新的 LRM 训练策略实现了显著更快的收敛速度,从而在更少的计算量下获得更好的质量。我们的方法在稀疏视图输入下实现了最先进的网格重建,并且还可应用于很多下游应用,包括文本到三维和单图像到三维的生成。项目页面:此链接。
Apr, 2024
该研究介绍了 Real3D,使用单视图真实世界图像训练的第一个大型重建模型系统,通过引入自主训练框架和无监督的损失函数,同时利用现有的合成数据和多样化的单视图真实图像,提高了性能和扩大了图像数据的规模,实验结果表明 Real3D 在不同的评估设置中优于以前的工作。
Jun, 2024
利用 Human-LRM 模型,我们可以从一张单一图像中预测人类神经辐射场。通过使用包含 3D 扫描和多视角捕获的大型数据集进行训练,我们的方法展现出了惊人的适应性。此外,为了增强模型在野外场景(尤其是存在遮挡情况下)中的适用性,我们提出了一种将多视角重建转化为单视角的新策略,即条件三平面扩散模型。这个生成式扩展方法解决了从单个视角观察时人体形状的固有变化,并使得从遮挡图像中重建完整的人体成为可能。通过大量实验证明,Human-LRM 在多个基准测试中显著超越了以往的方法。
Jan, 2024
我们提出了一种无姿势大重建模型(PF-LRM),可以从少数非姿势图像中重建三维物体,即使视觉重叠很少,同时在单个 A100 GPU 上估计相对相机姿势,仅需约 1.3 秒。PF-LRM 是一种高度可扩展的方法,利用自注意力块在三维物体标记和二维图像标记之间交换信息;我们为每个视图预测粗略的点云,然后使用可微的透视 - n - 点(PnP)求解器获得相机姿势。当在约 1M 个多视图姿势数据上进行训练时,PF-LRM 表现出强大的跨数据集泛化能力,并在各种未见评估数据集上以姿势预测准确性和三维重建质量大幅超越基线方法。我们还展示了模型在下游文本 / 图像到三维任务中的适用性,并具有快速的前馈推理。项目网站位于: this https URL。
Nov, 2023
我们提出了 GS-LRM,一个可扩展的大型重建模型,可以在单个 A100 GPU 上从 2-4 个稀疏图像中预测高质量的 3D 高斯原语,并在 0.23 秒内完成。我们的模型采用了非常简单的基于 transformer 的架构;我们对输入的图像进行了分块处理,通过一系列的 transformer 块将连接的多视图图像令牌传递,并直接从这些令牌解码出每像素的高斯参数以进行可微渲染。与之前仅能重建对象的低秩模型不同,GS-LRM 通过预测每像素的高斯分布,能够自然地处理具有不同尺度和复杂性的场景。我们展示了我们的模型可以适用于对象和场景捕捉,并通过在 Objaverse 和 RealEstate10K 上进行训练,在这两种情景下,我们的模型都比现有的最先进方法表现得更好。我们还展示了我们模型在下游 3D 生成任务中的应用。我们的项目网页位于:this https URL。
Apr, 2024
我们提出了一种新的方法,从多视角图像中进行 3D 网格重建。我们的方法借鉴了像 LRM 这样的大型重建模型,使用了基于 Transformer 的三面体生成器和在多视角图像上进行训练的神经辐射场(NeRF)模型。然而,在我们的方法中,我们引入了一些重要的修改,以显著提高 3D 重建质量。
Jun, 2024
通过引入大型多视图高斯模型(LGM),这篇论文提出了一种从文本提示或单视图图像生成高分辨率 3D 模型的新框架,其中包含多视图高斯特征作为有效且强大的表示,并利用多视图扩散模型实现高吞吐量骨干网络的不对称 U-Net。大量实验证明了该方法的高保真度和高效性,同时在 5 秒内生成 3D 对象的速度快且训练分辨率达到 512,从而实现了高分辨率 3D 内容生成。
Feb, 2024
我们介绍了 GRM,一个能够从稀疏视图图像中在大约 0.1 秒内恢复 3D 资产的大规模重构器。GRM 是一个前馈变换器模型,能够高效地将多视图信息结合起来,将输入像素翻译成像素对齐的高斯分布,通过反投影生成一系列密集分布的 3D 高斯分布来表示场景。我们的变换器架构和使用 3D 高斯分布的方法共同构成了一个可扩展且高效的重构框架。广泛的实验结果证明,我们的方法在重构质量和效率方面优于其他替代方法。我们还展示了 GRM 在生成任务中的潜力,即将其与现有的多视图扩散模型集成,如文本到 3D 和图像到 3D。有关我们的项目网站,请访问:this https URL
Mar, 2024