Nov, 2023

PF-LRM:用于联合姿态和形状预测的无姿态大型重建模型

TL;DR我们提出了一种无姿势大重建模型(PF-LRM),可以从少数非姿势图像中重建三维物体,即使视觉重叠很少,同时在单个 A100 GPU 上估计相对相机姿势,仅需约 1.3 秒。PF-LRM 是一种高度可扩展的方法,利用自注意力块在三维物体标记和二维图像标记之间交换信息;我们为每个视图预测粗略的点云,然后使用可微的透视 - n - 点(PnP)求解器获得相机姿势。当在约 1M 个多视图姿势数据上进行训练时,PF-LRM 表现出强大的跨数据集泛化能力,并在各种未见评估数据集上以姿势预测准确性和三维重建质量大幅超越基线方法。我们还展示了模型在下游文本 / 图像到三维任务中的适用性,并具有快速的前馈推理。项目网站位于: this https URL。