Apr, 2024
NeRF-MAE: 自监督三维表示学习的遮罩自动编码器用于神经辐射场
NeRF-MAE : Masked AutoEncoders for Self Supervised 3D representation
Learning for Neural Radiance Fields
TL;DR神经场在计算机视觉和机器人技术中表现出色,能够理解三维视觉世界,例如推断语义、几何和动态。我们使用神经场进行自监督预训练,尤其是使用遮盖的自动编码器从RGB图像生成有效的三维表示,然后将标准的三维视觉Transformer应用于NeRF来进行特定形式的训练。我们利用NeRF的体积网格作为Transformer的密集输入,与像点云等其他三维表示进行对比。通过将相机轨迹用于采样,我们提取了可以规范化不同域中场景的显式表示。我们的目标是通过遮盖NeRF的辐射和密度网格的随机补丁并使用标准的三维Swin Transformer重建这些补丁,从而使模型能够学习完整场景的语义和空间结构。我们在自己提出的posed-RGB数据上规模化地对这个表示进行预训练,总共涉及超过160万幅图像。预训练后,编码器可以用于有效的三维迁移学习。我们提出的NeRF-MAE自监督预训练方法在各种具有挑战性的三维任务上表现出色,利用未标记的posed 2D数据进行预训练,相较于自监督三维预训练和NeRF场景理解基线,在Front3D和ScanNet数据集上的三维物体检测的AP50和AP25绝对性能提升分别超过20%和8%。