VLFM: 视觉语言前沿地图用于零样本语义导航

Dec, 2023

VLFM: 视觉语言前沿地图用于零样本语义导航

VLFM: Vision-Language Frontier Maps for Zero-Shot Semantic Navigation

Naoki Yokoyama, Sehoon Ha, Dhruv Batra, Jiuguang Wang, Bernadette Bucher

TL;DR人类如何利用语义知识在陌生环境中导航并决定下一步探索的方式对于开发能够展现类似人类搜索行为的机器人来说至关重要。我们介绍了一种零样本导航方法，即视觉语言前沿地图（VLFM），其受人类推理的启发，并设计用于在新环境中驶向未见过语义对象。VLFM 根据深度观测建立占用地图，以识别前沿，并利用 RGB 观测和预训练的视觉语言模型生成基于语言的价值地图。然后，VLFM 使用该地图来识别探索最有希望的前沿，以寻找给定目标对象类别的实例。我们在 Gibson、Habitat-Matterport 3D（HM3D）和 Matterport 3D（MP3D）数据集的逼真环境中，在 Habitat 模拟器中评估了 VLFM。令人惊讶的是，VLFM 在对象目标导航任务的成功路径长度（SPL）方面，在所有三个数据集上都实现了最先进的结果。此外，我们还展示了 VLFM 的零样本特性使其能够轻松部署在现实世界的机器人上，如波士顿动力公司的 Spot 移动操作平台。我们在 Spot 上部署了 VLFM，并展示了它在现实世界的办公楼中高效导航到目标对象的能力，而无需任何对环境的先验知识。VLFM 的成就凸显了视觉语言模型在推进语义导航领域的巨大潜力。可以在 naoki.io/vlfm 上观看实际部署的视频。

Abstract

Understanding how humans leverage semantic knowledge to navigate unfamiliar environments and decide where to explore next is pivotal for developing robots capable of human-like search behaviors. We introduce a zero-shot

semantic knowledge navigation vision-language frontier maps zero-shot vision-language models

发现论文，激发创造

在零样本机器人导航中平衡性能和效率

我们对机器人的目标导航任务中应用的视觉语言前沿地图（VLFM）进行了优化研究。我们评估了各种视觉语言模型、目标检测器、分割模型以及多模态理解和视觉问答模块的效率和性能。在有限的 VRAM 桌面上，我们提出了一个解决方案，它在不丢失重要路径长度损失的情况下，比 VLFM BLIP-2 基线取得了更高的成功率（+1.55%），并且需要的视频内存减少了 2.3 倍。我们的研究结果揭示了在资源有限的环境中平衡模型性能和计算效率的洞见，并提出了有效的部署策略。

Jun, 2024

OpenFMNav: 面向开放式、零样本物体导航的视觉语言基础模型

我们提出了 OpenFMNav，一种基于开放集对象导航的零样本模型，通过利用大型语言模型和视觉语言模型的推理和泛化能力，能够理解自由形式的人类指令，并在各种环境中进行有效的零样本导航，通过对 HM3D ObjectNav 基准测试的广泛实验，证明了我们方法的有效性，并通过真实机器人演示验证了这种方法对真实环境的开放性和泛化能力。

Feb, 2024

机器人导航的视觉语言地图

本研究提出了 VLMaps，一种将 3D 物理世界重建与预训练的视觉语言特征直接融合的空间地图表示，其能够通过大型语言模型将自然语言命令直接转化为空间导航目标。VLMaps 能够在不需要额外标注数据的情况下自主构建，并且可以与多种类型的机器人共享，能够进行导航的同时生成新的障碍物地图。实验表明，VLMaps 可以支持人类语言含义更丰富的导航指令。

Oct, 2022

通过生成未来视角图像语义来提升视觉 - 语言导航能力

该研究旨在探讨智能体是否可以在导航的同时生成未来视图的语义，并通过三个代理任务和一项辅助损失来教授模型实现该目的；实验表明这种能力使智能体的性能得到了提升，并且学习如何预测未来视图语义使智能体对于长路径的表现更好。

Apr, 2023

大型语言模型下的导航：语义猜测作为计划启发式

通过利用语义知识作为搜索启发式的语言模型，我们的方法（Language Frontier Guide，LFG）可以在新颖的现实环境和模拟基准测试中优于无知探索和其他使用语言模型的方法。

Oct, 2023

在无标注三维环境中学习视觉语言导航

本研究提出通过使用 900 个未标记的 3D 建筑从 HM3D 中自动创建 VLN 数据集，并通过预训练的语言模型对数据集进行微调，从而解决 VLN 方法中的数据稀缺性问题，从而大幅提高 VLN 模型的泛化能力。实验表明该方法在 REVERIE 和 SOON 数据集验证数据集上提高了 7.1% 和 8.1% 的 SPL 性能，取得了良好效果。

Aug, 2022

面向视觉 - 语言地理基础模型：一项调查

本文全面审查了视觉 - 语言地理基础模型（VLGFMs），总结和分析了该领域的最新发展，包括 VLGFMs 的背景、动机、核心技术和应用，以及未来研究方向的洞察、问题和讨论。

Jun, 2024

基于视频的 VLM 为视觉与语言导航规划下一步

NaVid 是一个基于视频的大型视觉语言模型，通过动态的视频流输入，无需地图、测距仪和深度信息，实现了最先进水平的导航性能，解决了里程计噪声和模拟环境到真实环境之间的缺陷，同时有效地利用机器人的历史观察作为决策和指令遵循的时空背景，通过对 550k 个导航样本和 665k 个网络数据的训练，在模拟环境和真实世界中取得了非常好的性能，为导航代理和整个研究领域规划了下一步。

Feb, 2024

IVLMap: 消费级机器人导航的实例感知视觉语言定位

通过构建语义空间地图和使用大型语言模型的强大推理能力，我们提出了一种新的方法 IVLMap，使机器人能够获得实例级和属性级的语义映射，从而实现了精确定位和零 - shot 端到端导航任务的能力，并在导航准确性上实现了 14.4% 的平均改进。

Mar, 2024

基于在线视觉语言映射的真实世界视觉语言导航

在本文中，我们提出了一个在真实世界中解决 VLN 任务的新型导航框架，该框架利用强大的基础模型，并包括四个关键组成部分：(1) 将语言指令转换为预定义的宏操作描述的 LLMs-based 指令解析器，(2) 构建实时的视觉 - 语言地图以保持对未知环境的空间和语义理解的在线视觉 - 语言映射器，(3) 基于语言索引的定位器，将每个宏操作描述重新映射到地图上的路径点位置，以及 (4) 基于 DD-PPO 的本地控制器，用于预测动作。我们在未知的实验室环境中使用 Interbotix LoCoBot WX250 对提出的流程进行了评估，而无需进行任何细微调整，在真实世界中，我们的流程明显优于 SOTA VLN 基线。

Oct, 2023