大型语言模型下的导航：语义猜测作为计划启发式

Oct, 2023

大型语言模型下的导航：语义猜测作为计划启发式

Navigation with Large Language Models: Semantic Guesswork as a Heuristic for Planning

Dhruv Shah, Michael Equi, Blazej Osinski, Fei Xia, Brian Ichter...

TL;DR通过利用语义知识作为搜索启发式的语言模型，我们的方法（Language Frontier Guide，LFG）可以在新颖的现实环境和模拟基准测试中优于无知探索和其他使用语言模型的方法。

Abstract

navigation in unfamiliar environments presents a major challenge for robots: while mapping and planning techniques can be used to build up a representation of the world, quickly discovering a path to a desired go

navigation unfamiliar environments semantic knowledge language models planning algorithms

发现论文，激发创造

在未知环境中跟随自然语言指令的学习模型

本文提出了一个新的学习框架，使得机器人可以成功地遵循自然语言路线指令，而无需任何先前环境的知识。该算法利用通过命令传达给机器人的空间和语义信息来学习关于空间扩展环境的度量和语义属性的分布，并将自然语言指令解释为关于预期行为的分布。通过对地图和状态分布进行推理，使用模仿学习的新型置信空间规划器直接求解策略，我们在可声控轮椅上评估了我们的框架。结果表明，通过学习和推理潜在的环境模型，该算法能够成功地遵循新颖的扩展环境中的自然语言路线指令。

Mar, 2015

利用大型语言和视觉模型通过程序生成的三维场景表示探索未知环境的机器人

利用大型语言模型（LLMs）和大型视觉语言模型（LVLMs）的能力，本研究提出了一个综合框架，模仿人类认知以实现对象目标导航问题的解决，通过关注、感知和存储任务特定信息，并生成相应计划。为了有效表示机器人周围的环境，提出使用语义丰富的 3D 场景模块化表示，并引入基于 LLM 的修剪策略以消除无关的目标特定信息。

Mar, 2024

利用 LLMs 和语音指令在优先地形上进行约束的机器人导航：发挥副词的力量

通过利用大型语言模型，该论文研究了使用生成 AI 进行无地图越野导航，从而减少对传统数据收集和注释的需求。通过将口头指令转换为文本，并使用大型语言模型提取地标、优选地形和关键副词来进行限制性导航的速度设置。通过语言驱动的语义分割模型生成基于文本的图像遮罩，以识别图像中的地标和地形类型。通过使用相机参数将 2D 图像点转换为车辆的运动平面，MPC 控制器可将车辆引导向所需地形。这种方法增强了对不同环境的适应能力，并便于使用高级指令导航复杂和具有挑战性的地形。

Apr, 2024

VLFM: 视觉语言前沿地图用于零样本语义导航

人类如何利用语义知识在陌生环境中导航并决定下一步探索的方式对于开发能够展现类似人类搜索行为的机器人来说至关重要。我们介绍了一种零样本导航方法，即视觉语言前沿地图（VLFM），其受人类推理的启发，并设计用于在新环境中驶向未见过语义对象。VLFM 根据深度观测建立占用地图，以识别前沿，并利用 RGB 观测和预训练的视觉语言模型生成基于语言的价值地图。然后，VLFM 使用该地图来识别探索最有希望的前沿，以寻找给定目标对象类别的实例。我们在 Gibson、Habitat-Matterport 3D（HM3D）和 Matterport 3D（MP3D）数据集的逼真环境中，在 Habitat 模拟器中评估了 VLFM。令人惊讶的是，VLFM 在对象目标导航任务的成功路径长度（SPL）方面，在所有三个数据集上都实现了最先进的结果。此外，我们还展示了 VLFM 的零样本特性使其能够轻松部署在现实世界的机器人上，如波士顿动力公司的 Spot 移动操作平台。我们在 Spot 上部署了 VLFM，并展示了它在现实世界的办公楼中高效导航到目标对象的能力，而无需任何对环境的先验知识。VLFM 的成就凸显了视觉语言模型在推进语义导航领域的巨大潜力。可以在 naoki.io/vlfm 上观看实际部署的视频。

Dec, 2023

CARTIER：面向机器人指令执行的地图语言推理

该研究通过大型语言模型（LLMs）探索了空间规划和自然语言界面与导航的交叉问题。我们关注的是遵循与传统机器人指令不同、更类似于自然对话的相对复杂的指令。与先前的大多数工作不同的是，我们研究了对话交互中的隐式指令。通过利用 3D 模拟器 AI2Thor 在规模上创建复杂且可重复的场景，并通过为 40 种对象类型增加复杂的语言查询来扩充它。我们证明了通过使用 LLM 将用户交互解释为场景中对象列表的上下文，机器人能够更好地解析描述性语言查询。

Jul, 2023

NavGPT: 基于大语言模型的视觉语言导航的明确推理

本篇论文中，我们使用大语言模型（LLMs）为基础，介绍了一款纯 LLMs 导航代理 NavGPT，通过对视觉和语言导航（VLN）进行零样本顺序动作预测，揭示了 GPT 模型在复杂体验场景中的推理能力，以及它在导航中的应用，通过全面的实验，展示了 NavGPT 可以分解指令成子目标、对与导航任务相关的常识知识进行集成以及适应特殊情况等高级规划能力。

May, 2023

利用大型语言和视觉 - 语言模型在具有可穿越障碍物的环境中进行互动导航

提出一个互动导航框架，使用大型语言和视觉语言模型，使机器人能在存在可通过的障碍物的环境中导航。利用大型语言模型（GPT-3.5）和开放域视觉语言模型（Grounding DINO），创建一个动作感知的成本图，可以实现有效的路径规划而无需微调。实验结果证明了该框架在不同环境中的有效性和适应性。

Oct, 2023

主动语义目标导航的映射学习

本文提出了一种通过主动学习生成语义地图的框架，在未知环境下实现目标物体导航，通过在未观察区域内的语义类别的不确定性进行决策，实现了对场景中语义优先级的学习，并在 Matterport3D 数据库上验证了改进的导航效果。

Jun, 2021

使用大型预训练的语言、视觉和行为模型的机器人导航

LM-Nav 是一个基于预训练模型的系统，它可以在大型未注释数据集上进行训练，不需要任何细化或语言注释的机器人数据，通过预先训练的导航模型（ViNG），图像语言关联（CLIP）和语言建模（GPT-3），可以通过自然语言指令在复杂的户外环境中漫游。

Jul, 2022

SayNav: 动态规划中基于大型语言模型的导航

基于大型语言模型的新方法 SayNav，通过建立探索环境的三维场景图，生成高级导航计划，并利用预训练的低级规划器逐步执行，动态生成导航过程中的指令并根据新感知信息不断改进步骤，有效在大规模新环境中定位多个不同物体。

Sep, 2023