VoroNav：基于 Voronoi 的零样本物体导航与大型语言模型

Jan, 2024

VoroNav：基于 Voronoi 的零样本物体导航与大型语言模型

VoroNav: Voronoi-based Zero-shot Object Navigation with Large Language Model

Pengying Wu, Yao Mu, Bingxian Wu, Yi Hou, Ji Ma...

TL;DR在家庭机器人领域，Zero-Shot Object Navigation 任务赋予了代理人在陌生环境中灵敏地穿越并定位来自新颖类别的物体而不需要事先明确训练。本文介绍了 VoroNav，一种新颖的语义探索框架，该框架提出了 Reduced Voronoi Graph 从实时构建的语义地图中提取探索路径和计划节点。通过利用拓扑和语义信息，VoroNav 设计基于文本的路径描述和图像，这些描述和图像可以被大型语言模型（LLM）轻松解释。我们的方法通过呈现路径和远视距描述的协同作用来表示环境背景，使 LLM 能够应用常识推理来确定导航的最佳航点。在 HM3D 和 HSSD 数据集上的广泛评估验证了 VoroNav 在成功率和探索效率（HM3D 上的成功率提高了 2.8%，SPL 提高了 3.7%，HSSD 上的成功率提高了 2.6%，SPL 提高了 3.8%）方面超过了现有的 Zero-Shot Object Navigation 基准。此外，引入了评估障碍物避免能力和感知效率的指标进一步证实了我们的方法在 Zero-Shot Object Navigation 规划中实现的改进。

Abstract

In the realm of household robotics, the zero-shot object navigation (ZSON) task empowers agents to adeptly traverse unfamiliar environments and locate objects from novel categories without prior explicit training. This paper introduces →

zero-shot object navigation voronav reduced voronoi graph semantic exploration framework commonsense reasoning

发现论文，激发创造

思考、行动与询问：开放式互动个性化机器人导航

Zero-Shot Object Navigation (ZSON) mainly focuses on following individual instructions to find generic object classes, while Zero-shot Interactive Personalized Object Navigation (ZIPON) introduces Open-woRld Interactive persOnalized Navigation (ORION) framework that uses Large Language Models (LLMs) to navigate to personalized goal objects while engaging in conversations with users, showing significant improvement with interactive agents that can leverage user feedback, but the balance between task completion and the efficiency of navigation and interaction remains challenging.

Oct, 2023

LOC-ZSON: 基于语言驱动的物体中心化零样本物体检索和导航

本文介绍 LOC-ZSON，一种用于复杂场景中物体导航任务的新颖语言驱动的面向物体的图像表示方法。我们提出了一种面向物体的图像表示和对应的损失函数，用于视觉语言模型（VLM）的微调，能够处理复杂的物体级别查询。此外，我们设计了一种基于 LLM 的增强和提示模板，以提高训练过程的稳定性和零样本推理的效果。我们在 Astro 机器人上实施了这种方法，并在模拟和现实世界环境中进行了零样本物体导航。我们展示了我们提出的方法在不同的基准设置下，在文本到图像检索任务中可以实现 1.38-13.38% 的改进。对于物体导航，我们展示了我们的方法在模拟和现实世界中的优势，分别取得了 5% 和 16.67% 的导航成功率的改进。

May, 2024

OpenFMNav: 面向开放式、零样本物体导航的视觉语言基础模型

我们提出了 OpenFMNav，一种基于开放集对象导航的零样本模型，通过利用大型语言模型和视觉语言模型的推理和泛化能力，能够理解自由形式的人类指令，并在各种环境中进行有效的零样本导航，通过对 HM3D ObjectNav 基准测试的广泛实验，证明了我们方法的有效性，并通过真实机器人演示验证了这种方法对真实环境的开放性和泛化能力。

Feb, 2024

基于基础模型的视觉与语言能力的行动感知零样本机器人导航

我们提出了一种基于动作感知的零样本图像与语言导航（ZS-VLN）方法（$A^2$Nav），通过利用基础模型的视觉和语言能力，将复杂的导航指令分解为一系列具有特定动作要求的对象导航子任务，然后学习一个由已收集到的具有不同特征的动作数据集构建的动作感知导航策略，以便按顺序执行这些子任务，从而实现导航指令的完整执行。实验证明，$A^2$Nav 在零样本图像与语言导航方面具有很好的性能，并且在 R2R-Habitat 和 RxR-Habitat 数据集上甚至超过了监督学习方法。

Aug, 2023

基于层次化对象到区域图的对象导航

本文提出利用分层对象 - 区域图（HOZ）来引导代理在未知环境中进行目标导航的方法，并引入在线学习机制来更新 HOZ 图。实验结果表明，该方法在 AI2-Thor 模拟器上具有有效性和高效性。

Sep, 2021

MO-VLN: 一个用于开放集零样本视觉与语言导航的多任务基准测试

提出一个名为 MO-VLN 的基准测试系统，用于测试机器人智能导航的效果和泛化能力。该系统包含三个逼真的 3D 场景，并涉及多个复杂的非常见物体，任务包括目标定位和高级指令追踪等。

Jun, 2023

零样本物体导向视觉导航

本文研究了零样本对象目标视觉导航任务，并提出了一种基于语义相似性网络的新型框架，用于在未训练过的类中引导机器人查找目标，通过在 AI2-THOR 平台上进行了广泛的实验，证明了我们模型的一般化能力强于基线模型。

Jun, 2022

面向视觉与语言导航的时空物体关系建模

利用交叉注意机制，通过对象关系提高代理导航能力，并引入回转惩罚损失函数以解决代理的重复位置访问问题。

Mar, 2024

基于语言的机器人导航的分层开放词汇三维场景图

本研究致力于解决大规模环境下对象层次之外的抽象查询对于基于语言引导的机器人导航的难题，通过构建一个层次化的开放词汇三维场景图映射方法（HOV-SG），将先进的开放词汇分割级别地图与自由导航相结合，并在覆盖面积上实现了大小的减少，并且在物体、房间和楼层级别上产生了超过之前基线的开放词汇语义准确度。

Mar, 2024

VLFM: 视觉语言前沿地图用于零样本语义导航

人类如何利用语义知识在陌生环境中导航并决定下一步探索的方式对于开发能够展现类似人类搜索行为的机器人来说至关重要。我们介绍了一种零样本导航方法，即视觉语言前沿地图（VLFM），其受人类推理的启发，并设计用于在新环境中驶向未见过语义对象。VLFM 根据深度观测建立占用地图，以识别前沿，并利用 RGB 观测和预训练的视觉语言模型生成基于语言的价值地图。然后，VLFM 使用该地图来识别探索最有希望的前沿，以寻找给定目标对象类别的实例。我们在 Gibson、Habitat-Matterport 3D（HM3D）和 Matterport 3D（MP3D）数据集的逼真环境中，在 Habitat 模拟器中评估了 VLFM。令人惊讶的是，VLFM 在对象目标导航任务的成功路径长度（SPL）方面，在所有三个数据集上都实现了最先进的结果。此外，我们还展示了 VLFM 的零样本特性使其能够轻松部署在现实世界的机器人上，如波士顿动力公司的 Spot 移动操作平台。我们在 Spot 上部署了 VLFM，并展示了它在现实世界的办公楼中高效导航到目标对象的能力，而无需任何对环境的先验知识。VLFM 的成就凸显了视觉语言模型在推进语义导航领域的巨大潜力。可以在 naoki.io/vlfm 上观看实际部署的视频。

Dec, 2023