Real3D:用真实世界图像扩展大型重建模型
我们提出了第一个大规模重建模型 (LRM),能够在仅 5 秒内从单个输入图像预测对象的 3D 模型。与许多以类别为基础在小规模数据集(如 ShapeNet)上训练的先前方法不同,LRM 采用一个高度可扩展的基于 transformer 的架构,具有 5 亿个可学习参数,能够直接从输入图像预测神经辐射场(NeRF)。我们以端到端的方式在包含大约 100 万个对象的海量多视图数据上训练我们的模型,包括 Objaverse 的合成渲染和 MVImgNet 的真实采集数据。这种高容量模型和大规模的训练数据的组合使得我们的模型具有很强的通用性,并能够从各种测试输入中生成高质量的 3D 重建结果,包括真实世界中的野外捕捉和生成模型的图像。可在此网站找到视频演示和可交互的 3D 网格:[https://this_URL]。
Nov, 2023
通过引入跨视图一致的交叉注意力机制和利用三维先验信息,提出了一种高效的多视角大型重建模型 (M-LRM),能够从多视图中以三维感知的方式高质量地重建三维形状,并且相比于 LRM 能够生成分辨率为 $128 imes 128$ 的三平面 NeRF,具有更高的保真度和训练收敛速度。
Jun, 2024
利用 Human-LRM 模型,我们可以从一张单一图像中预测人类神经辐射场。通过使用包含 3D 扫描和多视角捕获的大型数据集进行训练,我们的方法展现出了惊人的适应性。此外,为了增强模型在野外场景(尤其是存在遮挡情况下)中的适用性,我们提出了一种将多视角重建转化为单视角的新策略,即条件三平面扩散模型。这个生成式扩展方法解决了从单个视角观察时人体形状的固有变化,并使得从遮挡图像中重建完整的人体成为可能。通过大量实验证明,Human-LRM 在多个基准测试中显著超越了以往的方法。
Jan, 2024
我们提出了 LRM-Zero,它是一个完全基于合成 3D 数据进行训练的大型重建模型,可以实现高质量的稀疏视角 3D 重建。LRM-Zero 的核心是我们的程序化 3D 数据集 Zeroverse,它是通过简单的基本形状进行自动合成,并进行随机纹理和增强处理(例如,高度场、布尔差异和线框)。与前期的 3D 数据集(例如 Objaverse)不同,Zeroverse 完全忽略了现实全局语义,但在复杂的几何和纹理细节上与真实物体局部相似甚至更加复杂。我们证明了我们的 LRM-Zero,在使用我们完全合成的 Zeroverse 进行训练时,可以在重建真实世界对象方面达到与使用 Objaverse 训练的模型竞争性的高视觉质量。我们还分析了对于 LRM-Zero 的能力和训练稳定性有贡献的 Zeroverse 的几个关键设计选择。我们的工作表明,作为 3D 视觉的核心任务之一,可能可以不考虑真实世界物体的语义来解决 3D 重建问题。Zeroverse 的程序化合成代码和交互式可视化可在此 URL 中获取。
Jun, 2024
该研究介绍了一种名为几何感知大型重建模型(GeoLRM)的方法,该方法可以使用 512k 个高斯函数和 21 个输入图像在仅需 11 GB 的 GPU 内存中预测高质量的资源。该模型通过引入一种新颖的三维感知变换器结构和可变形交叉注意机制来解决现有方法在表达低分辨率和提高质量的密集视图方面的局限性,实现了三维结构和二维图像之间的有效融合,并在三维生成任务中表现出显著的性能优势。
Jun, 2024
本文介绍了一种使用生成式对抗网络(GAN)生成的多视角图像数据集重建高质量纹理三维模型的方法,其具有可忽略的注释成本,并通过多阶段学习和在线伪标签生成的新颖对抗学习流水线实现了精细的细节并显著改善了之前的方法。
May, 2023
我们提出了 GS-LRM,一个可扩展的大型重建模型,可以在单个 A100 GPU 上从 2-4 个稀疏图像中预测高质量的 3D 高斯原语,并在 0.23 秒内完成。我们的模型采用了非常简单的基于 transformer 的架构;我们对输入的图像进行了分块处理,通过一系列的 transformer 块将连接的多视图图像令牌传递,并直接从这些令牌解码出每像素的高斯参数以进行可微渲染。与之前仅能重建对象的低秩模型不同,GS-LRM 通过预测每像素的高斯分布,能够自然地处理具有不同尺度和复杂性的场景。我们展示了我们的模型可以适用于对象和场景捕捉,并通过在 Objaverse 和 RealEstate10K 上进行训练,在这两种情景下,我们的模型都比现有的最先进方法表现得更好。我们还展示了我们模型在下游 3D 生成任务中的应用。我们的项目网页位于:this https URL。
Apr, 2024
我们提出了一种无姿势大重建模型(PF-LRM),可以从少数非姿势图像中重建三维物体,即使视觉重叠很少,同时在单个 A100 GPU 上估计相对相机姿势,仅需约 1.3 秒。PF-LRM 是一种高度可扩展的方法,利用自注意力块在三维物体标记和二维图像标记之间交换信息;我们为每个视图预测粗略的点云,然后使用可微的透视 - n - 点(PnP)求解器获得相机姿势。当在约 1M 个多视图姿势数据上进行训练时,PF-LRM 表现出强大的跨数据集泛化能力,并在各种未见评估数据集上以姿势预测准确性和三维重建质量大幅超越基线方法。我们还展示了模型在下游文本 / 图像到三维任务中的适用性,并具有快速的前馈推理。项目网站位于: this https URL。
Nov, 2023
通过利用内在分解指导、瞬态 - 单模先验指导和视图增强来解决光照不一致、几何不对齐和视图稀疏等问题,我们提出了一种新的 3D 重构框架,该框架能够将多视图图像生成与神经网络基于体积有符号距离函数的单一图像到 3D 对象重建相结合。在各种数据集上评估我们的方法,并在定量和定性评估中展示了其卓越性能,从而在 3D 物体重建方面取得了显著的进展。与最新的最先进方法 Syncdreamer 相比,我们将 Chamfer 距离误差降低了约 36%,将 PSNR 提高了约 30%。
Jan, 2024
本研究提出了一种统一的模型,用于针对数百个语义类别的单视图 3D 对象重建,并利用分割的图像集合来学习分类通用物体的 3D 形状,通过使用标准识别数据集的图像集进行评估,表明该方法使得对 150 个以上物体类别的 3D 推断成为可能。最终得到的 3D 重建模型还能够对未见物体类别的图像进行零样本推断,并且通过实验证明,增加训练类别的数量可以提高重建质量。
Apr, 2022