机器人导航的视觉语言地图

Oct, 2022

Visual Language Maps for Robot Navigation

Chenguang Huang, Oier Mees, Andy Zeng, Wolfram Burgard

TL;DR本研究提出了 VLMaps，一种将 3D 物理世界重建与预训练的视觉语言特征直接融合的空间地图表示，其能够通过大型语言模型将自然语言命令直接转化为空间导航目标。VLMaps 能够在不需要额外标注数据的情况下自主构建，并且可以与多种类型的机器人共享，能够进行导航的同时生成新的障碍物地图。实验表明，VLMaps 可以支持人类语言含义更丰富的导航指令。

Abstract

Grounding language to the visual observations of a navigating agent can be performed using off-the-shelf visual-language models pretrained on Internet-scale data (e.g., image captions). While this is useful for matching images to natural language descriptions of object goals, it remain

vlmaps visual-language models natural language commands navigation goals obstacle maps

发现论文，激发创造

IVLMap: 消费级机器人导航的实例感知视觉语言定位

通过构建语义空间地图和使用大型语言模型的强大推理能力，我们提出了一种新的方法 IVLMap，使机器人能够获得实例级和属性级的语义映射，从而实现了精确定位和零 - shot 端到端导航任务的能力，并在导航准确性上实现了 14.4% 的平均改进。

Mar, 2024

机器人导航的音视频语言地图

提出了一种名为 Audio-Visual-Language Maps (AVLMaps) 的 3D 空间地图表达方式，集成了来自音频、视觉和语言提示的跨模态信息，可以通过多模态引导实现零样本多模态目标导航，并在模糊场景中提供 50％更好的召回率。

Mar, 2023

基于在线视觉语言映射的真实世界视觉语言导航

在本文中，我们提出了一个在真实世界中解决 VLN 任务的新型导航框架，该框架利用强大的基础模型，并包括四个关键组成部分：(1) 将语言指令转换为预定义的宏操作描述的 LLMs-based 指令解析器，(2) 构建实时的视觉 - 语言地图以保持对未知环境的空间和语义理解的在线视觉 - 语言映射器，(3) 基于语言索引的定位器，将每个宏操作描述重新映射到地图上的路径点位置，以及 (4) 基于 DD-PPO 的本地控制器，用于预测动作。我们在未知的实验室环境中使用 Interbotix LoCoBot WX250 对提出的流程进行了评估，而无需进行任何细微调整，在真实世界中，我们的流程明显优于 SOTA VLN 基线。

Oct, 2023

视觉语言导航：在实际环境中解释基于视觉的导航指令

通过视觉和语言方法的应用，本文提出了一个以真实影像为基础的强化学习环境 Matterport3D Simulator，为现实建筑物的自然语言导航问题提供了第一个基准测试数据集 Room-to-Room (R2R) dataset。

Nov, 2017

开放式词汇可查询实景场景表示用于真实世界规划

本文提出了 NLMap 框架，通过先建立可查询的场景表征，为 LLM 规划器整合上下文信息，使其可以查询场景中的对象并产生上下文条件计划，从而使机器人能够实现无固定对象列表和可执行选择的真实机器人操作。

Sep, 2022

利用大型语言和视觉模型通过程序生成的三维场景表示探索未知环境的机器人

利用大型语言模型（LLMs）和大型视觉语言模型（LVLMs）的能力，本研究提出了一个综合框架，模仿人类认知以实现对象目标导航问题的解决，通过关注、感知和存储任务特定信息，并生成相应计划。为了有效表示机器人周围的环境，提出使用语义丰富的 3D 场景模块化表示，并引入基于 LLM 的修剪策略以消除无关的目标特定信息。

Mar, 2024

BEVBert: 基于拓扑度量图的语言引导导航预训练

本研究提出采用混合拓扑度量图来实现视觉和语言导航，其中拓扑地图用于长期规划，度量地图用于短期推理，通过深度特征和预训练框架学习语言信息地图表示，增强了跨模态接地和促进最终的语言引导导航目标，实验证明了地图路线在 VLN 中的有效性，该方法在三个 VLN 基准测试中取得了最新的最佳效果。

Dec, 2022

在无标注三维环境中学习视觉语言导航

本研究提出通过使用 900 个未标记的 3D 建筑从 HM3D 中自动创建 VLN 数据集，并通过预训练的语言模型对数据集进行微调，从而解决 VLN 方法中的数据稀缺性问题，从而大幅提高 VLN 模型的泛化能力。实验表明该方法在 REVERIE 和 SOON 数据集验证数据集上提高了 7.1% 和 8.1% 的 SPL 性能，取得了良好效果。

Aug, 2022

基于视频的 VLM 为视觉与语言导航规划下一步

NaVid 是一个基于视频的大型视觉语言模型，通过动态的视频流输入，无需地图、测距仪和深度信息，实现了最先进水平的导航性能，解决了里程计噪声和模拟环境到真实环境之间的缺陷，同时有效地利用机器人的历史观察作为决策和指令遵循的时空背景，通过对 550k 个导航样本和 665k 个网络数据的训练，在模拟环境和真实世界中取得了非常好的性能，为导航代理和整个研究领域规划了下一步。

Feb, 2024

多模态大型语言模型用于视觉导航

通过简单的文本提示、当前观察和历史收集模型，我们的方法在视觉导航中对大型语言模型进行了精细调优，训练模型使用了来自 Habitat-Matterport 3D 数据集（HM3D）的人类示范和碰撞信号，实验结果表明我们的方法优于最先进的行为克隆方法并有效地降低了碰撞率。

Oct, 2023