NavGPT-2:发掘大型视觉语言模型的导航推理能力
LM-Nav是一个基于预训练模型的系统,它可以在大型未注释数据集上进行训练,不需要任何细化或语言注释的机器人数据,通过预先训练的导航模型(ViNG),图像语言关联(CLIP)和语言建模(GPT-3),可以通过自然语言指令在复杂的户外环境中漫游。
Jul, 2022
本文提出了一种新算法LGX,采用“语言驱动、零-shot方式”的方法使机器人导航到一个在以前未被探索的环境中描述的目标对象,利用大型语言模型(LLMs)的能力将环境的语义上下文隐式知识映射为机器人运动规划的连续输入来做出导航决策,并同时利用经过预训练的视觉语言接地模型进行一般化目标对象检测,在RoboTHOR上实现了最新的零-shot目标导航结果,成功率(SR)比OWL CoW的当前基线提高了超过27%,同时,我们还研究了利用LLMs进行机器人导航的用途,并分析了影响模型输出的各种语义因素,最后通过真实世界实验展示了LGX方法的优越性能,可有效导航和检测视觉上独特的对象。
Mar, 2023
本篇论文中,我们使用大语言模型(LLMs)为基础,介绍了一款纯 LLMs 导航代理 NavGPT,通过对视觉和语言导航(VLN)进行零样本顺序动作预测,揭示了 GPT 模型在复杂体验场景中的推理能力,以及它在导航中的应用,通过全面的实验,展示了 NavGPT 可以分解指令成子目标、对与导航任务相关的常识知识进行集成以及适应特殊情况等高级规划能力。
May, 2023
提出了一种创新性的框架Co-NavGPT,将大型语言模型(LLMs)作为多机器人合作视觉目标导航的全局规划器,通过编码探索环境数据,为每个机器人分配探索边界,实现高效的目标搜索,实验结果表明Co-NavGPT在成功率和效率方面优于现有模型,展示了LLMs在多机器人协作领域的巨大潜力。
Oct, 2023
该研究全面概述了大型语言模型(LLMs)和多模态LLMs在各种机器人任务中的整合,并提出了一种利用多模态GPT-4V结合自然语言指令和机器人视觉感知增强具身任务规划的框架。基于多样化的数据集,我们的结果表明GPT-4V有效地提升了机器人在具身任务中的表现。对LLMs和多模态LLMs在各种机器人任务中的广泛调查和评估丰富了对以LLMs为中心的具身智能的理解,并提供了展望未来的关于人机环境交互的见解。
Jan, 2024
通过构建导航思维链(NavCoT)进行领域内训练的新策略,提高了基于大型语言模型(LLM)的自主导航决策性能以减少领域差距。NavCoT相对于直接行动预测的变体在各种训练设置和流行的视听导航基准上表现明显优越,并通过简单的参数微调在R2R数据集上实现了约7%的相对改进。该方法将帮助开发更适应任务且可扩展的基于LLM的真实世界机器人应用。
Mar, 2024
利用大型语言模型和Thinking Interacting and Action框架,本研究提出了一种用于零样本导航的导航代理,该方法提高了基于大型语言模型的代理导航的性能,并在Room-to-Room数据集上优于某些基于监督学习的方法,展示了其在零样本导航中的有效性。
Mar, 2024
在视觉语言导航(VLN)任务中,代理器需要按照自然语言指令导航到目的地。本文提出了一套方法来解决现有大型语言模型在构建记忆和导航策略多样性方面面临的问题,通过维护一个包含导航历史、视点、物体及它们的空间关系的拓扑地图来增强导航能力,并通过引入导航思维链模块富化导航策略多样性,最终通过整合感知和动作预测模块建立了一个能提高大型语言模型导航能力和解释性的流水线。实验证明,该方法有效地增强了大型语言模型的导航能力并提高了导航推理的可解释性。
May, 2024
本研究解决了传统视觉和语言导航(VLN)方法依赖特定领域数据集的问题,提出了一种新颖的使用开放源代码LLM进行零样本导航的方式。通过空间-时间链式推理框架,Open-Nav能有效理解指令、估计进度并做出决策,实验结果表明其在模拟和真实环境中的表现与闭源LLM相媲美,具有广泛的应用潜力。
Sep, 2024