一个具有身体的智能代理是否能够找到您的 “猫形杯”？基于 LLM 的零样本目标导航

Mar, 2023

一个具有身体的智能代理是否能够找到您的 “猫形杯”？基于 LLM 的零样本目标导航

Can an Embodied Agent Find Your "Cat-shaped Mug"? LLM-Based Zero-Shot Object Navigation

Vishnu Sashank Dorbala, James F. Mullen Jr., Dinesh Manocha

TL;DR本文提出了一种新算法 LGX，采用 “语言驱动、零 - shot 方式” 的方法使机器人导航到一个在以前未被探索的环境中描述的目标对象，利用大型语言模型（LLMs）的能力将环境的语义上下文隐式知识映射为机器人运动规划的连续输入来做出导航决策，并同时利用经过预训练的视觉语言接地模型进行一般化目标对象检测，在 RoboTHOR 上实现了最新的零 - shot 目标导航结果，成功率（SR）比 OWL CoW 的当前基线提高了超过 27%，同时，我们还研究了利用 LLMs 进行机器人导航的用途，并分析了影响模型输出的各种语义因素，最后通过真实世界实验展示了 LGX 方法的优越性能，可有效导航和检测视觉上独特的对象。

Abstract

We present lgx, a novel algorithm for object goal navigation in a "language-driven, zero-shot manner", where an embodied agent navigates t

lgx object goal navigation large language models vision-language grounding model zero-shot

发现论文，激发创造

LOC-ZSON: 基于语言驱动的物体中心化零样本物体检索和导航

本文介绍 LOC-ZSON，一种用于复杂场景中物体导航任务的新颖语言驱动的面向物体的图像表示方法。我们提出了一种面向物体的图像表示和对应的损失函数，用于视觉语言模型（VLM）的微调，能够处理复杂的物体级别查询。此外，我们设计了一种基于 LLM 的增强和提示模板，以提高训练过程的稳定性和零样本推理的效果。我们在 Astro 机器人上实施了这种方法，并在模拟和现实世界环境中进行了零样本物体导航。我们展示了我们提出的方法在不同的基准设置下，在文本到图像检索任务中可以实现 1.38-13.38% 的改进。对于物体导航，我们展示了我们的方法在模拟和现实世界中的优势，分别取得了 5% 和 16.67% 的导航成功率的改进。

May, 2024

NavGPT: 基于大语言模型的视觉语言导航的明确推理

本篇论文中，我们使用大语言模型（LLMs）为基础，介绍了一款纯 LLMs 导航代理 NavGPT，通过对视觉和语言导航（VLN）进行零样本顺序动作预测，揭示了 GPT 模型在复杂体验场景中的推理能力，以及它在导航中的应用，通过全面的实验，展示了 NavGPT 可以分解指令成子目标、对与导航任务相关的常识知识进行集成以及适应特殊情况等高级规划能力。

May, 2023

语言模型作为零样本轨迹生成器

大型语言模型（LLMs）已经显示出在机器人方面作为高级规划器的潜力，但通常假设 LLMs 在低级轨迹规划方面不具备足够的知识。本文深入探讨了这个假设，研究了当 LLM（GPT-4）只有对象检测和分割视觉模型的访问权限时，是否可以直接预测操作技能的密集序列的末端执行器姿态。我们研究了一个单一的任务无关提示在 26 个真实世界的基于语言的任务上的表现，比如 “打开瓶盖” 和 “用海绵擦拭盘子”，并调查了这个提示中哪些设计选择是最有效的。我们的结论打破了 LLMs 在机器人领域的假设限制，首次揭示了 LLMs 确实具备在常见任务中理解低级机器人控制的能力，并且它们还可以检测到失败并相应地重新规划轨迹。

Oct, 2023

利用大型语言和视觉模型通过程序生成的三维场景表示探索未知环境的机器人

利用大型语言模型（LLMs）和大型视觉语言模型（LVLMs）的能力，本研究提出了一个综合框架，模仿人类认知以实现对象目标导航问题的解决，通过关注、感知和存储任务特定信息，并生成相应计划。为了有效表示机器人周围的环境，提出使用语义丰富的 3D 场景模块化表示，并引入基于 LLM 的修剪策略以消除无关的目标特定信息。

Mar, 2024

CARTIER：面向机器人指令执行的地图语言推理

该研究通过大型语言模型（LLMs）探索了空间规划和自然语言界面与导航的交叉问题。我们关注的是遵循与传统机器人指令不同、更类似于自然对话的相对复杂的指令。与先前的大多数工作不同的是，我们研究了对话交互中的隐式指令。通过利用 3D 模拟器 AI2Thor 在规模上创建复杂且可重复的场景，并通过为 40 种对象类型增加复杂的语言查询来扩充它。我们证明了通过使用 LLM 将用户交互解释为场景中对象列表的上下文，机器人能够更好地解析描述性语言查询。

Jul, 2023

不训练你的龙：利用语义前沿进行无需训练的物体目标导航

该篇论文介绍了一种模块化的训练免费方案，利用经典的 V-SLAM 框架构建结构化场景表示，并注入语义和统计信息，通过感知物体类别和语义信息指导智能体进行探索和导航任务。

May, 2023

基于大型语言模型的房间 - 物体关系知识在增强多模态输入目标导航中的应用

利用大型语言模型提取知识，我们在多通道 Swin-Unet 架构的基础上，使用数据驱动的、基于模块的方法进行多任务学习，从而实现了有效的目标导航，超过了基准模型平均 10.6% 的效率指标（SPL），并在现实世界的演示中展示了该方法在穿越多个房间时的高效性。

Mar, 2024

OpenFMNav: 面向开放式、零样本物体导航的视觉语言基础模型

我们提出了 OpenFMNav，一种基于开放集对象导航的零样本模型，通过利用大型语言模型和视觉语言模型的推理和泛化能力，能够理解自由形式的人类指令，并在各种环境中进行有效的零样本导航，通过对 HM3D ObjectNav 基准测试的广泛实验，证明了我们方法的有效性，并通过真实机器人演示验证了这种方法对真实环境的开放性和泛化能力。

Feb, 2024

CAMON：基于 LLM 对话的多对象导航协作智能体

该论文提出了一种利用大型语言模型的通信和协作的分散式多代理导航框架，通过设计通信触发的动态领导组织结构，实现更快的团队共识，减少通信次数，提高导航效果和协同探索效率，在多目标导航任务中无冲突且具有稳健性，即使团队规模激增。

Jun, 2024

NavCoT: 基于学习的解耦推理，提升基于 LLM 的视觉与语言导航

通过构建导航思维链（NavCoT）进行领域内训练的新策略，提高了基于大型语言模型（LLM）的自主导航决策性能以减少领域差距。NavCoT 相对于直接行动预测的变体在各种训练设置和流行的视听导航基准上表现明显优越，并通过简单的参数微调在 R2R 数据集上实现了约 7％的相对改进。该方法将帮助开发更适应任务且可扩展的基于 LLM 的真实世界机器人应用。

Mar, 2024