DREAMWALKER：持续视觉语言导航的心智规划

ICCVAug, 2023

DREAMWALKER：持续视觉语言导航的心智规划

DREAMWALKER: Mental Planning for Continuous Vision-Language Navigation

Hanqing Wang, Wei Liang, Luc Van Gool, Wenguan Wang

TL;DR通过构建一个基于世界模型的 VLN-CE 代理程序，DREAMWALKER 能够在内部抽象世界中模拟和评估可能的计划，实现智能导航和透明的决策过程。

Abstract

vln-ce is a recently released embodied task, where AI agents need to navigate a freely traversable environment to reach a distant target location, given language instructions. It poses great challenges due to the huge space of possible strategies. Driven by the belief that the ability

vln-ce dreamwalker world model planning behavior intelligent navigation

发现论文，激发创造

持续视觉与语言导航

以连续学习为基础，提出了视觉语言导航的连续学习范式，通过重新组织已有的导航数据集，提出了 CVLN-I 和 CVLN-D 两个用于训练和评估 CVLN 代理的数据集，进一步提出了 Perplexity Replay (PerpR) 和 Episodic Self-Replay (ESR) 两种基于回放的新方法，通过广泛实验验证了所提方法的有效性。

Mar, 2024

基于连续环境下视觉语言导航的模拟到模拟转移

这篇论文探讨了如何通过迁移学习将抽象的 VLN 任务应用到真实的 VLN-CE 任务中，提高了原先 VLN-CE 任务的成功率，但并没有完全保持抽象环境下的表现，并且通过一系列实验找出了导致性能降低的原因，并提供了进一步改进的清晰方向。

Apr, 2022

基于图形的连续环境中视觉语言导航的环境表征

本研究介绍了一种基于环境表示图（ERG）的跨模式注意力导航模型来解决语言说明与环境之间的联系问题，并在 VLN-CE 任务的成功率方面表现出令人满意的表现。

Jan, 2023

具备体验智能的视觉 - 语言导航：综述

长期愿景是提高代理者和环境的感知、理解和交互能力，以实现具体导航的视觉 - 语言导航（VLN）作为实现具体导航的核心研究路径，关注代理者如何使用自然语言与人类进行有效沟通，接收和理解指令，并最终依靠视觉信息实现准确的导航。此综述系统回顾了 VLN 的研究进展并详细介绍了具体导航的研究方向，包括系统架构、基于方法的研究和常用基准数据集，全面分析了当前研究面临的问题和挑战，并探讨了该领域的未来发展方向，旨在为研究人员提供实用的参考。

Feb, 2024

迭代式视觉语言导航

本研究提出了一种名为 IVLN（迭代视觉语言导航）的新范例用于评估自然语言引导的智能体在具有持久环境的不同场景中的导航表现。

Oct, 2022

VELMA：街景视觉语言导航中 LLM 代理人的语言表达体现

该研究提出了一个用于视觉和语言导航的具有身体感知的语言模型（VELMA），它能够通过人类书写的导航指令中提取位置信息和使用 CLIP 算法来处理图像信息并实现与真实街景地图的交互，相比先前的研究，在两个数据集中，VELMA 完成任务的成功率相比前者提高了 25％-30％

Jul, 2023

层次化跨模态机器人视觉语言导航智能体

该研究论文提出了一种基于连续三维重建环境的机器人视觉和语言导航（Robo-VLN）的设定，并利用分层决策，模块化训练和分离推理和模仿的策略，成功地解决了 Robo-VLN 这一新任务。通过使用 HCM 代理，研究者展示了比现有基线效果更好的结果，为 Robo-VLN 创造了新的基准。

Apr, 2021

MC-GPT: 通过记忆地图和推理链增强视觉与语言导航能力

在视觉语言导航（VLN）任务中，代理器需要按照自然语言指令导航到目的地。本文提出了一套方法来解决现有大型语言模型在构建记忆和导航策略多样性方面面临的问题，通过维护一个包含导航历史、视点、物体及它们的空间关系的拓扑地图来增强导航能力，并通过引入导航思维链模块富化导航策略多样性，最终通过整合感知和动作预测模块建立了一个能提高大型语言模型导航能力和解释性的流水线。实验证明，该方法有效地增强了大型语言模型的导航能力并提高了导航推理的可解释性。

May, 2024

连续的视觉语言导航中的前瞻探索及神经辐射表示

利用预训练的分层神经辐射表示模型产生多层次语义特征，用于预测未来环境，提出前瞻导航模型以构建可导航的未来路径树并通过有效的并行评估选择最佳路径。

Apr, 2024

ETPNav：连续环境下视觉语言导航的进化拓扑规划

本研究提出了 EPTNav 探索实现连续环境下视觉语言导航的方法和框架，该框架着重于生成长距离导航计划和在连续环境中进行避障控制，并利用拓扑地图和指令生成自主导航计划。实验证明该方法的有效性，并在 R2R-CE 和 RxR-CE 数据集上分别获得超过 10% 和 20% 的改进。

Apr, 2023