May, 2023

跨越领域鸿沟:基于基础模型的自监督三维场景理解

TL;DR该论文介绍了一种名为 Bridge3D 的创新方法,通过预训练使用基础模型的特征、语义掩码和说明来预训练 3D 模型,从而增强 3D 场景表示学习,包括使用基础模型的语义掩码来指导掩码和重建过程。此外,作者还介绍了一种新方法,使用基础模型生成高精度的物体级掩码和语义文本信息,进一步促进基础 2D 和文本表示向 3D 模型的知识转移。该方法在 3D 对象检测和语义分割任务中优于现有的最先进方法,在 ScanNet 数据集上的最佳结果超过之前的最优方法 PiMAE 5.3%。