Recent advances in large-scale pretraining have yielded visual foundation
models with strong capabilities. Not only can recent models generalize to
arbitrary images for their training task, their intermediate representations
are useful for other visual tasks such as detection and segme
该论文介绍了一种名为 Bridge3D 的创新方法,通过预训练使用基础模型的特征、语义掩码和说明来预训练 3D 模型,从而增强 3D 场景表示学习,包括使用基础模型的语义掩码来指导掩码和重建过程。此外,作者还介绍了一种新方法,使用基础模型生成高精度的物体级掩码和语义文本信息,进一步促进基础 2D 和文本表示向 3D 模型的知识转移。该方法在 3D 对象检测和语义分割任务中优于现有的最先进方法,在 ScanNet 数据集上的最佳结果超过之前的最优方法 PiMAE 5.3%。