Mar, 2023

通过遮蔽图像建模实现更好的三维知识转移,用于多视角三维理解

TL;DR本文提出了一种名为 GeoMIM 的多相机视觉转换器,通过预训练 - 微调的方法将 LiDAR BEV 模型的知识传递给 GeoMIM,以改善多视图基于相机的三维检测,并在 nuscenes 基准测试中取得了最新的表现。