Apr, 2024

GS-LRM: 三维高斯喷射的大规模重建模型

TL;DR我们提出了 GS-LRM,一个可扩展的大型重建模型,可以在单个 A100 GPU 上从 2-4 个稀疏图像中预测高质量的 3D 高斯原语,并在 0.23 秒内完成。我们的模型采用了非常简单的基于 transformer 的架构;我们对输入的图像进行了分块处理,通过一系列的 transformer 块将连接的多视图图像令牌传递,并直接从这些令牌解码出每像素的高斯参数以进行可微渲染。与之前仅能重建对象的低秩模型不同,GS-LRM 通过预测每像素的高斯分布,能够自然地处理具有不同尺度和复杂性的场景。我们展示了我们的模型可以适用于对象和场景捕捉,并通过在 Objaverse 和 RealEstate10K 上进行训练,在这两种情景下,我们的模型都比现有的最先进方法表现得更好。我们还展示了我们模型在下游 3D 生成任务中的应用。我们的项目网页位于:this https URL。