移动 VLA：多模式指引导航与长上下文 VLMs 以及拓扑图

Jul, 2024

移动 VLA：多模式指引导航与长上下文 VLMs 以及拓扑图

Mobility VLA: Multimodal Instruction Navigation with Long-Context VLMs and Topological Graphs

Hao-Tien Lewis Chiang, Zhuo Xu, Zipeng Fu, Mithun George Jacob, Tingnan Zhang...

TL;DR在导航研究中，一个难以达成的目标是建立一个智能代理，能够理解包括自然语言和图像的多模式指令，并进行有用的导航。为了实现这一目标，我们研究了一类被称为多模式指令导航（MINT）的广泛应用导航任务，其中环境先验通过以前记录的演示视频提供。最近视觉语言模型（VLMs）的进展显示了实现这一目标的有希望的途径，因为它表现出对多模式输入的感知和推理能力。然而，VLMs通常是训练来预测文本输出的，关于如何最好地利用它们进行导航是一个需要研究的问题。为了解决MINT，我们提出了一个名为移动VLA的分层视觉语言行动（VLA）导航策略，它结合了长上下文VLMs的环境理解和常识推理能力以及基于拓扑图的稳健低层导航策略。该高层策略由一个长上下文VLM组成，它以演示导航视频和多模式用户指令作为输入，在导航视频中找到目标帧。接下来，一个低层策略使用目标帧和离线构建的拓扑图在每个时间步生成机器人动作。我们在一个836平方米的真实世界环境中评估了移动VLA，并展示了在以前无法解决的多模式指令如“我应该把这个放在哪里？”的情况下，移动VLA具有高的端到端成功率，同时拿着一个塑料箱。

Abstract

An elusive goal in navigation research is to build an intelligent agent that can understand multimodal instructions including natural language and image, and perform useful navigation. To achieve this, we study a widely useful category of navigation tasks we call multimodal instruction naviga

发现论文，激发创造

子任务感知的视觉语言导航

本文提出了一个精细度更高的注释，以便在自然语言指令下更好地完成环境中的导航，为此使用了带有细致的注释的Room-to-Room（R2R）基准数据集。并引入有效的子指令注意力和移位模块，在每个时间步选择并关注单个子指令，实现了此子指令模块，与四个最新的代理基线模型进行了比较，并展示了我们提出的方法改进了所有四个代理的性能。

Apr, 2020

使用Transformer的拓扑规划实现视觉语言导航

本文介绍了一种基于模块化方法的视觉和语言导航技术，使用拓扑地图和注意机制来生成导航计划，并通过低级动作执行控制器实现。实验证明，该方法在自由遍历环境下优于以往的端到端方法。

Dec, 2020

迭代式视觉语言导航

本研究提出了一种名为IVLN（迭代视觉语言导航）的新范例用于评估自然语言引导的智能体在具有持久环境的不同场景中的导航表现。

Oct, 2022

新路径：使用合成指令和模仿学习扩展视觉语言导航

利用360度全景数据生成的合成语音引导大型模拟数据集，使用模仿学习的简单Transformer模型，本文介绍了一种新的方式——合成指令及大规模模仿学习来提高代理程序。

Oct, 2022

NavGPT: 基于大语言模型的视觉语言导航的明确推理

本篇论文中，我们使用大语言模型（LLMs）为基础，介绍了一款纯 LLMs 导航代理 NavGPT，通过对视觉和语言导航（VLN）进行零样本顺序动作预测，揭示了 GPT 模型在复杂体验场景中的推理能力，以及它在导航中的应用，通过全面的实验，展示了 NavGPT 可以分解指令成子目标、对与导航任务相关的常识知识进行集成以及适应特殊情况等高级规划能力。

May, 2023

移动之前进行讨论：通过多专家讨论进行视觉语言导航

通过与专家的讨论，我们引入了一种新的零射击视觉语言导航框架，命名为DiscussNav，能够有效地增强导航性能。

Sep, 2023

基于视频的VLM为视觉与语言导航规划下一步

NaVid是一个基于视频的大型视觉语言模型，通过动态的视频流输入，无需地图、测距仪和深度信息，实现了最先进水平的导航性能，解决了里程计噪声和模拟环境到真实环境之间的缺陷，同时有效地利用机器人的历史观察作为决策和指令遵循的时空背景，通过对550k个导航样本和665k个网络数据的训练，在模拟环境和真实世界中取得了非常好的性能，为导航代理和整个研究领域规划了下一步。

Feb, 2024

InstructNav：零封闭的通用指令导航系统在未知环境中

通过引入动态导航链和价值地图，以及零样本学习的方式，提出了InstructNav系统来解决多种导航指令的统一规划，该系统在任务完成上优于以往方法。

Jun, 2024

Open-Nav：探索开放源代码LLM在连续环境中零样本视觉和语言导航

本研究解决了传统视觉和语言导航（VLN）方法依赖特定领域数据集的问题，提出了一种新颖的使用开放源代码LLM进行零样本导航的方式。通过空间-时间链式推理框架，Open-Nav能有效理解指令、估计进度并做出决策，实验结果表明其在模拟和真实环境中的表现与闭源LLM相媲美，具有广泛的应用潜力。

Sep, 2024

基于视觉语言模型的端到端导航：将空间推理转化为问答

本研究针对传统导航方法中感知、规划和控制之间的隔离问题，提出了VLMnav，一个通过视觉语言模型(VLM)直接选择动作的端到端导航框架。研究发现，VLM在无需微调或导航数据的情况下，能够作为零样本策略应用，大大提高了方法的开放性和可推广性。

Nov, 2024