基于基础模型的视觉与语言能力的行动感知零样本机器人导航

Aug, 2023

基于基础模型的视觉与语言能力的行动感知零样本机器人导航

$A^2$Nav: Action-Aware Zero-Shot Robot Navigation by Exploiting Vision-and-Language Ability of Foundation Models

Peihao Chen, Xinyu Sun, Hongyan Zhi, Runhao Zeng, Thomas H. Li...

TL;DR我们提出了一种基于动作感知的零样本图像与语言导航（ZS-VLN）方法（$A^2$Nav），通过利用基础模型的视觉和语言能力，将复杂的导航指令分解为一系列具有特定动作要求的对象导航子任务，然后学习一个由已收集到的具有不同特征的动作数据集构建的动作感知导航策略，以便按顺序执行这些子任务，从而实现导航指令的完整执行。实验证明，$A^2$Nav 在零样本图像与语言导航方面具有很好的性能，并且在 R2R-Habitat 和 RxR-Habitat 数据集上甚至超过了监督学习方法。

Abstract

We study the task of zero-shot vision-and-language navigation (zs-vln), a practical yet challenging problem in which an agent learns to navigate following a path described by language instructions without requiri

zero-shot vision-and-language navigation zs-vln action-aware zero-shot vln method instruction parser action-aware navigation policy

发现论文，激发创造

零射击视觉语言导航中的思考、交互和行动框架

利用大型语言模型和 Thinking Interacting and Action 框架，本研究提出了一种用于零样本导航的导航代理，该方法提高了基于大型语言模型的代理导航的性能，并在 Room-to-Room 数据集上优于某些基于监督学习的方法，展示了其在零样本导航中的有效性。

Mar, 2024

具备语言预训练和随机采样的稳健导航

本文提出了两种有效方法来改善视觉和语言导航 (VLN) 挑战中的指令表示和动作解码问题，一是使用大规模预训练语言模型来学习更好的文本表示，二是提出一种随机采样方案来减小训练和测试中动作的差距，从而使智能体可以在长序列的动作解码过程中学习自我纠正，将两项技术结合，成功地在 Room-to-Room 基准测试中取得了新的最优性能，以路径长度加权的成功率指标提高了 6% 绝对值 (47%—>53%)。

Sep, 2019

面向物体和动作的视觉语言导航模型

本研究提出了一种针对 Vision-and-Language Navigation 中，不同类型自然语言信息处理的 Object-and-Action Aware Model，并设计了一种简单但有效的路径损失函数，以优化机器人在导航中的方向选择。实验结果在 R2R 数据集的 SPL 得分和在 R4R 数据集中的 CLS 得分方面显著超过现有技术。

Jul, 2020

OpenFMNav: 面向开放式、零样本物体导航的视觉语言基础模型

我们提出了 OpenFMNav，一种基于开放集对象导航的零样本模型，通过利用大型语言模型和视觉语言模型的推理和泛化能力，能够理解自由形式的人类指令，并在各种环境中进行有效的零样本导航，通过对 HM3D ObjectNav 基准测试的广泛实验，证明了我们方法的有效性，并通过真实机器人演示验证了这种方法对真实环境的开放性和泛化能力。

Feb, 2024

从 YouTube 视频中学习视觉与语言导航

通过利用大规模的房屋导览视频数据集，本文提出了一种视觉语言导航方法，使用自动构建的路径指令对训练的代理进行预训练，并利用视频中的布局信息来提高导航的泛化性能。通过实验结果表明，该方法在两个流行的基准测试（R2R 和 REVERIE）上取得了最先进的性能。

Jul, 2023

VoroNav：基于 Voronoi 的零样本物体导航与大型语言模型

在家庭机器人领域，Zero-Shot Object Navigation 任务赋予了代理人在陌生环境中灵敏地穿越并定位来自新颖类别的物体而不需要事先明确训练。本文介绍了 VoroNav，一种新颖的语义探索框架，该框架提出了 Reduced Voronoi Graph 从实时构建的语义地图中提取探索路径和计划节点。通过利用拓扑和语义信息，VoroNav 设计基于文本的路径描述和图像，这些描述和图像可以被大型语言模型（LLM）轻松解释。我们的方法通过呈现路径和远视距描述的协同作用来表示环境背景，使 LLM 能够应用常识推理来确定导航的最佳航点。在 HM3D 和 HSSD 数据集上的广泛评估验证了 VoroNav 在成功率和探索效率（HM3D 上的成功率提高了 2.8%，SPL 提高了 3.7%，HSSD 上的成功率提高了 2.6%，SPL 提高了 3.8%）方面超过了现有的 Zero-Shot Object Navigation 基准。此外，引入了评估障碍物避免能力和感知效率的指标进一步证实了我们的方法在 Zero-Shot Object Navigation 规划中实现的改进。

Jan, 2024

新路径：使用合成指令和模仿学习扩展视觉语言导航

利用 360 度全景数据生成的合成语音引导大型模拟数据集，使用模仿学习的简单 Transformer 模型，本文介绍了一种新的方式 —— 合成指令及大规模模仿学习来提高代理程序。

Oct, 2022

CLIP-Nav: 使用 CLIP 进行零样本视觉与语言导航

本研究主要探讨利用 CLIP 模型在零样本情况下，通过描述目标对象的自然语言参考表达式来解决零样本视觉语言导航问题，并在 REVERIE 数据集上比较 CLIP 模型和监督学习模型的性能。结果显示，采用 CLIP 零样本方法的导航能力优于基于模板的监督学习方法，并且在相对成功率（RCS）方面具有更好的泛化性能。

Nov, 2022

NavGPT: 基于大语言模型的视觉语言导航的明确推理

本篇论文中，我们使用大语言模型（LLMs）为基础，介绍了一款纯 LLMs 导航代理 NavGPT，通过对视觉和语言导航（VLN）进行零样本顺序动作预测，揭示了 GPT 模型在复杂体验场景中的推理能力，以及它在导航中的应用，通过全面的实验，展示了 NavGPT 可以分解指令成子目标、对与导航任务相关的常识知识进行集成以及适应特殊情况等高级规划能力。

May, 2023

视觉语言导航的模拟与实际转化

本文旨在研究如何将视觉 - 语言导航技术 (VLN) 从模拟场景应用于物理机器人，并提出了使用子目标模型和领域随机化等方法，以提升在未知环境下的表现。作者在 325 平方米的办公室内进行实验，结果表明，在提前采集和注释了占用图和导航图的情况下，模拟 - to - 真实的转移成功率可达 46.8%，而完全没有先前信息的情况下，转移成功率仅有 22.5%。

Nov, 2020