在零样本机器人导航中平衡性能和效率

Jun, 2024

在零样本机器人导航中平衡性能和效率

Balancing Performance and Efficiency in Zero-shot Robotic Navigation

Dmytro Kuzmenko, Nadiya Shvai

TL;DR我们对机器人的目标导航任务中应用的视觉语言前沿地图（VLFM）进行了优化研究。我们评估了各种视觉语言模型、目标检测器、分割模型以及多模态理解和视觉问答模块的效率和性能。在有限的 VRAM 桌面上，我们提出了一个解决方案，它在不丢失重要路径长度损失的情况下，比 VLFM BLIP-2 基线取得了更高的成功率（+1.55%），并且需要的视频内存减少了 2.3 倍。我们的研究结果揭示了在资源有限的环境中平衡模型性能和计算效率的洞见，并提出了有效的部署策略。

Abstract

We present an optimization study of the vision-language frontier maps (VLFM) applied to the object goal navigation task in robotics. Our work evaluates the →

vision-language frontier maps object goal navigation efficiency performance computational efficiency

发现论文，激发创造

VLFM: 视觉语言前沿地图用于零样本语义导航

人类如何利用语义知识在陌生环境中导航并决定下一步探索的方式对于开发能够展现类似人类搜索行为的机器人来说至关重要。我们介绍了一种零样本导航方法，即视觉语言前沿地图（VLFM），其受人类推理的启发，并设计用于在新环境中驶向未见过语义对象。VLFM 根据深度观测建立占用地图，以识别前沿，并利用 RGB 观测和预训练的视觉语言模型生成基于语言的价值地图。然后，VLFM 使用该地图来识别探索最有希望的前沿，以寻找给定目标对象类别的实例。我们在 Gibson、Habitat-Matterport 3D（HM3D）和 Matterport 3D（MP3D）数据集的逼真环境中，在 Habitat 模拟器中评估了 VLFM。令人惊讶的是，VLFM 在对象目标导航任务的成功路径长度（SPL）方面，在所有三个数据集上都实现了最先进的结果。此外，我们还展示了 VLFM 的零样本特性使其能够轻松部署在现实世界的机器人上，如波士顿动力公司的 Spot 移动操作平台。我们在 Spot 上部署了 VLFM，并展示了它在现实世界的办公楼中高效导航到目标对象的能力，而无需任何对环境的先验知识。VLFM 的成就凸显了视觉语言模型在推进语义导航领域的巨大潜力。可以在 naoki.io/vlfm 上观看实际部署的视频。

Dec, 2023

MO-VLN: 一个用于开放集零样本视觉与语言导航的多任务基准测试

提出一个名为 MO-VLN 的基准测试系统，用于测试机器人智能导航的效果和泛化能力。该系统包含三个逼真的 3D 场景，并涉及多个复杂的非常见物体，任务包括目标定位和高级指令追踪等。

Jun, 2023

OpenFMNav: 面向开放式、零样本物体导航的视觉语言基础模型

我们提出了 OpenFMNav，一种基于开放集对象导航的零样本模型，通过利用大型语言模型和视觉语言模型的推理和泛化能力，能够理解自由形式的人类指令，并在各种环境中进行有效的零样本导航，通过对 HM3D ObjectNav 基准测试的广泛实验，证明了我们方法的有效性，并通过真实机器人演示验证了这种方法对真实环境的开放性和泛化能力。

Feb, 2024

机器人导航的视觉语言地图

本研究提出了 VLMaps，一种将 3D 物理世界重建与预训练的视觉语言特征直接融合的空间地图表示，其能够通过大型语言模型将自然语言命令直接转化为空间导航目标。VLMaps 能够在不需要额外标注数据的情况下自主构建，并且可以与多种类型的机器人共享，能够进行导航的同时生成新的障碍物地图。实验表明，VLMaps 可以支持人类语言含义更丰富的导航指令。

Oct, 2022

VLMbench：一个视觉语言操纵组合基准

本文提出自动操作求解器（AMSolver）系统和基于其构建的视觉与语言操作基准（VLMbench），用于处理基于语言指令的机器人操作任务，并开发了基于关键点的 6D-CLIPort 模型来处理多视角观察和语言输入并输出一系列 6 自由度（DoF）动作。

Jun, 2022

视觉语言导航的模拟与实际转化

本文旨在研究如何将视觉 - 语言导航技术 (VLN) 从模拟场景应用于物理机器人，并提出了使用子目标模型和领域随机化等方法，以提升在未知环境下的表现。作者在 325 平方米的办公室内进行实验，结果表明，在提前采集和注释了占用图和导航图的情况下，模拟 - to - 真实的转移成功率可达 46.8%，而完全没有先前信息的情况下，转移成功率仅有 22.5%。

Nov, 2020

在无标注三维环境中学习视觉语言导航

本研究提出通过使用 900 个未标记的 3D 建筑从 HM3D 中自动创建 VLN 数据集，并通过预训练的语言模型对数据集进行微调，从而解决 VLN 方法中的数据稀缺性问题，从而大幅提高 VLN 模型的泛化能力。实验表明该方法在 REVERIE 和 SOON 数据集验证数据集上提高了 7.1% 和 8.1% 的 SPL 性能，取得了良好效果。

Aug, 2022

CVPR2024 基础 Few-Shot 目标检测挑战的解决方案

本报告介绍了一种增强的方法来解决基础性少样本物体检测任务，利用视觉语言模型 (VLM) 进行物体检测。为解决 VLM 可能遇到的与目标概念不一致的问题，本研究提出了 VLM + 框架，把多模态大型语言模型 (MM-LLM) 集成到 VLM 中。通过 MM-LLM 生成每个类别的一系列参考表达式，根据 VLM 的预测和给定的注释，选取与每个类别最大 IoU 匹配的最佳参考表达式，并生成伪标签来细调 VLM。该方法在最终测试中达到了 32.56 mAP。

Jun, 2024

视觉语言模型是强化学习的零样本奖励模型

使用预训练的视觉语言模型作为无样本奖励模型以指定任务，通过单个句子文本提示训练 MuJoCo 仿真人完成复杂任务，表明未来的视觉语言模型将在广泛的强化学习应用中成为更加有用的奖励模型。

Oct, 2023

基于视频的 VLM 为视觉与语言导航规划下一步

NaVid 是一个基于视频的大型视觉语言模型，通过动态的视频流输入，无需地图、测距仪和深度信息，实现了最先进水平的导航性能，解决了里程计噪声和模拟环境到真实环境之间的缺陷，同时有效地利用机器人的历史观察作为决策和指令遵循的时空背景，通过对 550k 个导航样本和 665k 个网络数据的训练，在模拟环境和真实世界中取得了非常好的性能，为导航代理和整个研究领域规划了下一步。

Feb, 2024