NeRF-MAE: 自监督三维表示学习的遮罩自动编码器用于神经辐射场

Apr, 2024

NeRF-MAE: 自监督三维表示学习的遮罩自动编码器用于神经辐射场

NeRF-MAE : Masked AutoEncoders for Self Supervised 3D representation Learning for Neural Radiance Fields

Muhammad Zubair Irshad, Sergey Zakahrov, Vitor Guizilini, Adrien Gaidon, Zsolt Kira...

TL;DR神经场在计算机视觉和机器人技术中表现出色，能够理解三维视觉世界，例如推断语义、几何和动态。我们使用神经场进行自监督预训练，尤其是使用遮盖的自动编码器从RGB图像生成有效的三维表示，然后将标准的三维视觉Transformer应用于NeRF来进行特定形式的训练。我们利用NeRF的体积网格作为Transformer的密集输入，与像点云等其他三维表示进行对比。通过将相机轨迹用于采样，我们提取了可以规范化不同域中场景的显式表示。我们的目标是通过遮盖NeRF的辐射和密度网格的随机补丁并使用标准的三维Swin Transformer重建这些补丁，从而使模型能够学习完整场景的语义和空间结构。我们在自己提出的posed-RGB数据上规模化地对这个表示进行预训练，总共涉及超过160万幅图像。预训练后，编码器可以用于有效的三维迁移学习。我们提出的NeRF-MAE自监督预训练方法在各种具有挑战性的三维任务上表现出色，利用未标记的posed 2D数据进行预训练，相较于自监督三维预训练和NeRF场景理解基线，在Front3D和ScanNet数据集上的三维物体检测的AP50和AP25绝对性能提升分别超过20％和8％。

Abstract

neural fields excel in computer vision and robotics due to their ability to understand the 3D visual world such as inferring semantics, geometry, and dynamics. Given the capabilities of neural fields in densely r