Feb, 2024

CLIP-Loc:面向基于物体的地图的多模式地标关联全局定位

TL;DR通过使用多模态数据关联方法,结合基于对象的地图和相机图像,本文描述了一种全局定位的方法。我们尝试使用 Vision Language Model (VLM),通过自然语言描述标记地标,并基于图像观察的概念相似性提取对应关系,从而提高了全局定位的准确性和效率。