Dec, 2023

VLFM: 视觉语言前沿地图用于零样本语义导航

TL;DR人类如何利用语义知识在陌生环境中导航并决定下一步探索的方式对于开发能够展现类似人类搜索行为的机器人来说至关重要。我们介绍了一种零样本导航方法,即视觉语言前沿地图(VLFM),其受人类推理的启发,并设计用于在新环境中驶向未见过语义对象。VLFM 根据深度观测建立占用地图,以识别前沿,并利用 RGB 观测和预训练的视觉语言模型生成基于语言的价值地图。然后,VLFM 使用该地图来识别探索最有希望的前沿,以寻找给定目标对象类别的实例。我们在 Gibson、Habitat-Matterport 3D(HM3D)和 Matterport 3D(MP3D)数据集的逼真环境中,在 Habitat 模拟器中评估了 VLFM。令人惊讶的是,VLFM 在对象目标导航任务的成功路径长度(SPL)方面,在所有三个数据集上都实现了最先进的结果。此外,我们还展示了 VLFM 的零样本特性使其能够轻松部署在现实世界的机器人上,如波士顿动力公司的 Spot 移动操作平台。我们在 Spot 上部署了 VLFM,并展示了它在现实世界的办公楼中高效导航到目标对象的能力,而无需任何对环境的先验知识。VLFM 的成就凸显了视觉语言模型在推进语义导航领域的巨大潜力。可以在 naoki.io/vlfm 上观看实际部署的视频。