利用大型语言和视觉 - 语言模型在具有可穿越障碍物的环境中进行互动导航

Oct, 2023

利用大型语言和视觉 - 语言模型在具有可穿越障碍物的环境中进行互动导航

Interactive Navigation in Environments with Traversable Obstacles Using Large Language and Vision-Language Models

Zhen Zhang, Anran Lin, Chun Wai Wong, Xiangyu Chu, Qi Dou...

TL;DR提出一个互动导航框架，使用大型语言和视觉语言模型，使机器人能在存在可通过的障碍物的环境中导航。利用大型语言模型（GPT-3.5）和开放域视觉语言模型（Grounding DINO），创建一个动作感知的成本图，可以实现有效的路径规划而无需微调。实验结果证明了该框架在不同环境中的有效性和适应性。

Abstract

This paper proposes an interactive navigation framework by using large language and vision-language models, allowing robots to navigate in environments with traversable obstacles. We utilize the →

interactive navigation large language model vision-language model traversable obstacles action-aware costmap

发现论文，激发创造

多模态大型语言模型用于视觉导航

通过简单的文本提示、当前观察和历史收集模型，我们的方法在视觉导航中对大型语言模型进行了精细调优，训练模型使用了来自 Habitat-Matterport 3D 数据集（HM3D）的人类示范和碰撞信号，实验结果表明我们的方法优于最先进的行为克隆方法并有效地降低了碰撞率。

Oct, 2023

利用大型语言和视觉模型通过程序生成的三维场景表示探索未知环境的机器人

利用大型语言模型（LLMs）和大型视觉语言模型（LVLMs）的能力，本研究提出了一个综合框架，模仿人类认知以实现对象目标导航问题的解决，通过关注、感知和存储任务特定信息，并生成相应计划。为了有效表示机器人周围的环境，提出使用语义丰富的 3D 场景模块化表示，并引入基于 LLM 的修剪策略以消除无关的目标特定信息。

Mar, 2024

视觉语言导航：在实际环境中解释基于视觉的导航指令

通过视觉和语言方法的应用，本文提出了一个以真实影像为基础的强化学习环境 Matterport3D Simulator，为现实建筑物的自然语言导航问题提供了第一个基准测试数据集 Room-to-Room (R2R) dataset。

Nov, 2017

Co-NavGPT: 多机器人协作视觉语义导航

提出了一种创新性的框架 Co-NavGPT，将大型语言模型（LLMs）作为多机器人合作视觉目标导航的全局规划器，通过编码探索环境数据，为每个机器人分配探索边界，实现高效的目标搜索，实验结果表明 Co-NavGPT 在成功率和效率方面优于现有模型，展示了 LLMs 在多机器人协作领域的巨大潜力。

Oct, 2023

使用大型预训练的语言、视觉和行为模型的机器人导航

LM-Nav 是一个基于预训练模型的系统，它可以在大型未注释数据集上进行训练，不需要任何细化或语言注释的机器人数据，通过预先训练的导航模型（ViNG），图像语言关联（CLIP）和语言建模（GPT-3），可以通过自然语言指令在复杂的户外环境中漫游。

Jul, 2022

机器人导航的视觉语言地图

本研究提出了 VLMaps，一种将 3D 物理世界重建与预训练的视觉语言特征直接融合的空间地图表示，其能够通过大型语言模型将自然语言命令直接转化为空间导航目标。VLMaps 能够在不需要额外标注数据的情况下自主构建，并且可以与多种类型的机器人共享，能够进行导航的同时生成新的障碍物地图。实验表明，VLMaps 可以支持人类语言含义更丰富的导航指令。

Oct, 2022

新路径：使用合成指令和模仿学习扩展视觉语言导航

利用 360 度全景数据生成的合成语音引导大型模拟数据集，使用模仿学习的简单 Transformer 模型，本文介绍了一种新的方式 —— 合成指令及大规模模仿学习来提高代理程序。

Oct, 2022

使用 Transformer 的拓扑规划实现视觉语言导航

本文介绍了一种基于模块化方法的视觉和语言导航技术，使用拓扑地图和注意机制来生成导航计划，并通过低级动作执行控制器实现。实验证明，该方法在自由遍历环境下优于以往的端到端方法。

Dec, 2020

NavGPT: 基于大语言模型的视觉语言导航的明确推理

本篇论文中，我们使用大语言模型（LLMs）为基础，介绍了一款纯 LLMs 导航代理 NavGPT，通过对视觉和语言导航（VLN）进行零样本顺序动作预测，揭示了 GPT 模型在复杂体验场景中的推理能力，以及它在导航中的应用，通过全面的实验，展示了 NavGPT 可以分解指令成子目标、对与导航任务相关的常识知识进行集成以及适应特殊情况等高级规划能力。

May, 2023

基于大型语言模型的房间 - 物体关系知识在增强多模态输入目标导航中的应用

利用大型语言模型提取知识，我们在多通道 Swin-Unet 架构的基础上，使用数据驱动的、基于模块的方法进行多任务学习，从而实现了有效的目标导航，超过了基准模型平均 10.6% 的效率指标（SPL），并在现实世界的演示中展示了该方法在穿越多个房间时的高效性。

Mar, 2024