Nov, 2023

LRM:单幅图像到 3D 的大规模重建模型

TL;DR我们提出了第一个大规模重建模型 (LRM),能够在仅 5 秒内从单个输入图像预测对象的 3D 模型。与许多以类别为基础在小规模数据集(如 ShapeNet)上训练的先前方法不同,LRM 采用一个高度可扩展的基于 transformer 的架构,具有 5 亿个可学习参数,能够直接从输入图像预测神经辐射场(NeRF)。我们以端到端的方式在包含大约 100 万个对象的海量多视图数据上训练我们的模型,包括 Objaverse 的合成渲染和 MVImgNet 的真实采集数据。这种高容量模型和大规模的训练数据的组合使得我们的模型具有很强的通用性,并能够从各种测试输入中生成高质量的 3D 重建结果,包括真实世界中的野外捕捉和生成模型的图像。可在此网站找到视频演示和可交互的 3D 网格:[https://this_URL]。