以基础模型为基础的面向便利性的连续视觉语言导航规划

Jul, 2024

以基础模型为基础的面向便利性的连续视觉语言导航规划

Affordances-Oriented Planning using Foundation Models for Continuous Vision-Language Navigation

Jiaqi Chen, Bingqian Lin, Xinmin Liu, Xiaodan Liang, Kwan-Yee K. Wong

TL;DRLLM基础代理在视觉语言导航（VLN）任务中展示了令人印象深刻的零射击性能。为解决实际导航场景中的低级控制问题，我们提出了AO-Planner，一种新颖的面向预设语境的连续VLN任务规划框架。通过集成各种基础模型，我们的AO-Planner能够以零射击方式进行适应性导航的运动规划和动作决策制定。实验证明AO-Planner在具有挑战性的R2R-CE基准测试中取得了最先进的零射击性能（SPL提高了5.5%），为LLM和三维世界之间的快速有效连接提供了新的前景。

Abstract

llm-based agents have demonstrated impressive zero-shot performance in the vision-language navigation (VLN) task. However, these zero-shot

发现论文，激发创造

通过预训练实现通用的视觉语言导航智能体学习

本文提出了第一个预训练和微调范式，用于视觉语言导航(VLN)任务。通过自监督学习方式训练大量的图像-文本-动作三元组，预训练模型提供通用的视觉环境和语言指令表示，可以轻松地用于现有的VLN框架。通过在三个VLN任务上验证性能可行性，验证了该方法的有效性和推广性。

Feb, 2020

进化图形规划器：为视觉语言导航提供上下文全局规划

本研究基于原始传感器输入，引入了进化图式计划者 (Evolving Graphical Planner，EGP)模型，其能够以更灵活的决策空间，为导航执行全局规划，并在具有照片级真实感的图像上的 Vision-and-Language Navigation (VLN) 任务中取得了优异的性能。

Jul, 2020

基于视觉理解规划的语言模型无需视觉输入推断详细计划

本文研究了如何将自然语言指令转化为虚拟环境中可行的多步骤行动序列，通过实证表明，结合一定的视觉信息和上下文语境，GPT-2模型能够成功地生成金标准语句执行序列，为基于语言的虚拟代理提供了强大的视觉语义规划模块。

Sep, 2020

基于基础模型的视觉与语言能力的行动感知零样本机器人导航

我们提出了一种基于动作感知的零样本图像与语言导航（ZS-VLN）方法（$A^2$Nav），通过利用基础模型的视觉和语言能力，将复杂的导航指令分解为一系列具有特定动作要求的对象导航子任务，然后学习一个由已收集到的具有不同特征的动作数据集构建的动作感知导航策略，以便按顺序执行这些子任务，从而实现导航指令的完整执行。实验证明，$A^2$Nav在零样本图像与语言导航方面具有很好的性能，并且在R2R-Habitat和RxR-Habitat数据集上甚至超过了监督学习方法。

Aug, 2023

移动之前进行讨论：通过多专家讨论进行视觉语言导航

通过与专家的讨论，我们引入了一种新的零射击视觉语言导航框架，命名为DiscussNav，能够有效地增强导航性能。

Sep, 2023

MapGPT: 地图引导的视觉与语言导航

本文提出了一种新型的地图引导GPT-based路径规划代理模型(MapGPT)，用于零-shot视觉语言导航任务，通过在线构建拓扑地图转换为提示来引导全局探索，要求代理模型明确输出和更新多步路径规划以避免陷入局部探索，并在R2R和REVERIE数据集上取得了令人印象深刻的性能(分别为38.8%和28.4%的成功率)，展示了GPT模型在全局思考和路径规划能力方面的新兴能力，与以往需要微调独立参数或特定提示设计来满足不同数据集中不同指令风格的VLN代理相比，我们的MapGPT更统一，能够在不同指令风格之间无缝适应，这在该领域是首次。

Jan, 2024

基于可行性的任务规划与大型语言模型的AutoGPT+P

提出了一种利用Large Language Models（LLMs）来改善基于任务规划中推理能力的经典规划算法固有限制的系统AutoGPT+P，该系统结合了基于行动能力的场景表示和规划系统，并能够在自然语言中为用户指定的任务推导和执行计划。

Feb, 2024

零射击视觉语言导航中的思考、交互和行动框架

利用大型语言模型和Thinking Interacting and Action框架，本研究提出了一种用于零样本导航的导航代理，该方法提高了基于大型语言模型的代理导航的性能，并在Room-to-Room数据集上优于某些基于监督学习的方法，展示了其在零样本导航中的有效性。

Mar, 2024

视觉与语言导航的现状和未来：基于基础模型时代的调查

通过采用一个原则性的框架对现有方法进行全面检讨，该综述着重于借助基础模型解决Vision-and-Language Navigation（VLN）领域的挑战，以及探索未来机遇和潜在角色。我们希望通过深入讨论提供有价值的资源和见解，不仅能够记录进展并探索基础模型在该领域中的机遇，而且能够对VLN中的不同挑战和解决方案进行分类整理，为基础模型研究人员提供帮助。

Jul, 2024

缩小导航中视觉与行动之间的差距

本文针对现有的视觉和语言导航方法在连续环境下的不足，提出了一种通过低级动作解码器与高级动作预测联合训练的新方法。此方法弥补了视觉感知与实际动作之间的差距，并利用丰富的语义信息增强了路径预测器。实验证明，该方法在导航性能指标上显著优于现有基线。

Aug, 2024