缩小导航中视觉与行动之间的差距

Aug, 2024

缩小导航中视觉与行动之间的差距

Narrowing the Gap between Vision and Action in Navigation

Yue Zhang, Parisa Kordjamshidi

TL;DR本文针对现有的视觉和语言导航方法在连续环境下的不足，提出了一种通过低级动作解码器与高级动作预测联合训练的新方法。此方法弥补了视觉感知与实际动作之间的差距，并利用丰富的语义信息增强了路径预测器。实验证明，该方法在导航性能指标上显著优于现有基线。

Abstract

The existing methods for Vision and Language Navigation in the Continuous Environment (VLN-CE) commonly incorporate a waypoint predictor to discretize the environment. This simplifies the navigation actions into

发现论文，激发创造

视觉语言导航的主动信息收集

该研究提出了一种基于人类导航行为的智能视觉语言导航策略，通过赋予代理人主动信息收集能力和学习探索策略来解决当前方法产生的不确定性问题和效率低下问题，实验证明该方法能显著提高导航性能。

Jul, 2020

面向物体和动作的视觉语言导航模型

本研究提出了一种针对Vision-and-Language Navigation中，不同类型自然语言信息处理的Object-and-Action Aware Model，并设计了一种简单但有效的路径损失函数，以优化机器人在导航中的方向选择。实验结果在R2R数据集的SPL得分和在R4R数据集中的CLS得分方面显著超过现有技术。

Jul, 2020

连续环境下基于指令导航的航点模型

使用语言指导下的路径规划，研究机器人领域中的导航方式和交互问题。通过变换不同的机器学习模型，来探索不同的路径预测方法，并发现在navigation metrics上，更具表现力的模型能够帮助机器人找到更优秀、更简单、更快速的路径，而低层动作则能够通过近似最短路径来获取更好的路径规划结果。

Oct, 2021

连接视觉与语言导航中离散与连续环境下学习的鸿沟

提出了一种预测器来解决视觉和语言导航领域中离散环境与连续环境之间的差异，该预测器可以生成候选的路径点，极大地提升了机器人在连续环境下的导航表现。

Mar, 2022

基于连续环境下视觉语言导航的模拟到模拟转移

这篇论文探讨了如何通过迁移学习将抽象的VLN任务应用到真实的VLN-CE任务中，提高了原先VLN-CE任务的成功率，但并没有完全保持抽象环境下的表现，并且通过一系列实验找出了导致性能降低的原因，并提供了进一步改进的清晰方向。

Apr, 2022

通过生成未来视角图像语义来提升视觉-语言导航能力

该研究旨在探讨智能体是否可以在导航的同时生成未来视图的语义，并通过三个代理任务和一项辅助损失来教授模型实现该目的；实验表明这种能力使智能体的性能得到了提升，并且学习如何预测未来视图语义使智能体对于长路径的表现更好。

Apr, 2023

视觉-语言导航的掩蔽路径建模

本文提出了一种基于 Masked Path Modeling (MPM) 的预训练方法，通过让代理自主探索导航环境并收集其路径以及使用收集的数据进行训练，有效提高了视觉和语言导航代理在各种指令复杂度下的行动生成能力。

May, 2023

注意间隔：通过重新审视 Oracle 成功路线来提高视觉语言导航的成功率

Vision-and-Language Navigation aims to narrow the gap between Success Rate and Oracle Success Rate by mining the target location from a trajectory using a transformer-based model for learning compact discriminative trajectory viewpoint representation.

Aug, 2023

移动之前进行讨论：通过多专家讨论进行视觉语言导航

通过与专家的讨论，我们引入了一种新的零射击视觉语言导航框架，命名为DiscussNav，能够有效地增强导航性能。

Sep, 2023

以基础模型为基础的面向便利性的连续视觉语言导航规划

LLM基础代理在视觉语言导航（VLN）任务中展示了令人印象深刻的零射击性能。为解决实际导航场景中的低级控制问题，我们提出了AO-Planner，一种新颖的面向预设语境的连续VLN任务规划框架。通过集成各种基础模型，我们的AO-Planner能够以零射击方式进行适应性导航的运动规划和动作决策制定。实验证明AO-Planner在具有挑战性的R2R-CE基准测试中取得了最先进的零射击性能（SPL提高了5.5%），为LLM和三维世界之间的快速有效连接提供了新的前景。

Jul, 2024