NavGPT-2：发掘大型视觉语言模型的导航推理能力

Jul, 2024

NavGPT-2：发掘大型视觉语言模型的导航推理能力

NavGPT-2: Unleashing Navigational Reasoning Capability for Large Vision-Language Models

Gengze Zhou, Yicong Hong, Zun Wang, Xin Eric Wang, Qi Wu

TL;DR通过固定Large Language Models中的视觉内容，我们利用了一种将LLMs和导航策略网络结合起来进行有效动作预测和导航推理的方法，展示了所提出方法的数据效率，并消除了基于LM的代理与最先进VLN专家之间的差距。

Abstract

Capitalizing on the remarkable advancements in large language models (LLMs), there is a burgeoning initiative to harness LLMs for instruction following robotic navigation. Such a trend underscores the potential o

发现论文，激发创造

使用大型预训练的语言、视觉和行为模型的机器人导航

LM-Nav是一个基于预训练模型的系统，它可以在大型未注释数据集上进行训练，不需要任何细化或语言注释的机器人数据，通过预先训练的导航模型（ViNG），图像语言关联（CLIP）和语言建模（GPT-3），可以通过自然语言指令在复杂的户外环境中漫游。

Jul, 2022

一个具有身体的智能代理是否能够找到您的“猫形杯”？基于LLM的零样本目标导航

本文提出了一种新算法LGX，采用“语言驱动、零-shot方式”的方法使机器人导航到一个在以前未被探索的环境中描述的目标对象，利用大型语言模型（LLMs）的能力将环境的语义上下文隐式知识映射为机器人运动规划的连续输入来做出导航决策，并同时利用经过预训练的视觉语言接地模型进行一般化目标对象检测，在RoboTHOR上实现了最新的零-shot目标导航结果，成功率（SR）比OWL CoW的当前基线提高了超过27%，同时，我们还研究了利用LLMs进行机器人导航的用途，并分析了影响模型输出的各种语义因素，最后通过真实世界实验展示了LGX方法的优越性能，可有效导航和检测视觉上独特的对象。

Mar, 2023

NavGPT: 基于大语言模型的视觉语言导航的明确推理

本篇论文中，我们使用大语言模型（LLMs）为基础，介绍了一款纯 LLMs 导航代理 NavGPT，通过对视觉和语言导航（VLN）进行零样本顺序动作预测，揭示了 GPT 模型在复杂体验场景中的推理能力，以及它在导航中的应用，通过全面的实验，展示了 NavGPT 可以分解指令成子目标、对与导航任务相关的常识知识进行集成以及适应特殊情况等高级规划能力。

May, 2023

移动之前进行讨论：通过多专家讨论进行视觉语言导航

通过与专家的讨论，我们引入了一种新的零射击视觉语言导航框架，命名为DiscussNav，能够有效地增强导航性能。

Sep, 2023

Co-NavGPT: 多机器人协作视觉语义导航

提出了一种创新性的框架Co-NavGPT，将大型语言模型（LLMs）作为多机器人合作视觉目标导航的全局规划器，通过编码探索环境数据，为每个机器人分配探索边界，实现高效的目标搜索，实验结果表明Co-NavGPT在成功率和效率方面优于现有模型，展示了LLMs在多机器人协作领域的巨大潜力。

Oct, 2023

大型语言模型在机器人领域的应用：机遇、挑战与展望

该研究全面概述了大型语言模型（LLMs）和多模态LLMs在各种机器人任务中的整合，并提出了一种利用多模态GPT-4V结合自然语言指令和机器人视觉感知增强具身任务规划的框架。基于多样化的数据集，我们的结果表明GPT-4V有效地提升了机器人在具身任务中的表现。对LLMs和多模态LLMs在各种机器人任务中的广泛调查和评估丰富了对以LLMs为中心的具身智能的理解，并提供了展望未来的关于人机环境交互的见解。

Jan, 2024

NavCoT: 基于学习的解耦推理，提升基于LLM的视觉与语言导航

通过构建导航思维链（NavCoT）进行领域内训练的新策略，提高了基于大型语言模型（LLM）的自主导航决策性能以减少领域差距。NavCoT相对于直接行动预测的变体在各种训练设置和流行的视听导航基准上表现明显优越，并通过简单的参数微调在R2R数据集上实现了约7％的相对改进。该方法将帮助开发更适应任务且可扩展的基于LLM的真实世界机器人应用。

Mar, 2024

零射击视觉语言导航中的思考、交互和行动框架

利用大型语言模型和Thinking Interacting and Action框架，本研究提出了一种用于零样本导航的导航代理，该方法提高了基于大型语言模型的代理导航的性能，并在Room-to-Room数据集上优于某些基于监督学习的方法，展示了其在零样本导航中的有效性。

Mar, 2024

MC-GPT: 通过记忆地图和推理链增强视觉与语言导航能力

在视觉语言导航（VLN）任务中，代理器需要按照自然语言指令导航到目的地。本文提出了一套方法来解决现有大型语言模型在构建记忆和导航策略多样性方面面临的问题，通过维护一个包含导航历史、视点、物体及它们的空间关系的拓扑地图来增强导航能力，并通过引入导航思维链模块富化导航策略多样性，最终通过整合感知和动作预测模块建立了一个能提高大型语言模型导航能力和解释性的流水线。实验证明，该方法有效地增强了大型语言模型的导航能力并提高了导航推理的可解释性。

May, 2024

Open-Nav：探索开放源代码LLM在连续环境中零样本视觉和语言导航

本研究解决了传统视觉和语言导航（VLN）方法依赖特定领域数据集的问题，提出了一种新颖的使用开放源代码LLM进行零样本导航的方式。通过空间-时间链式推理框架，Open-Nav能有效理解指令、估计进度并做出决策，实验结果表明其在模拟和真实环境中的表现与闭源LLM相媲美，具有广泛的应用潜力。

Sep, 2024