Jun, 2023

通过视觉基础模型实现无标签场景理解

TL;DR该研究调查了使用视觉基础模型实现二维和三维场景理解的潜力,并提出了一个新的跨模式噪声监督方法,利用 CLIP 和 SAM 模型的优势共同训练二维和三维网络,实现了在不需要标记数据的情况下进行图像语义分割。