DREAMWALKER:持续视觉语言导航的心智规划
以连续学习为基础,提出了视觉语言导航的连续学习范式,通过重新组织已有的导航数据集,提出了 CVLN-I 和 CVLN-D 两个用于训练和评估 CVLN 代理的数据集,进一步提出了 Perplexity Replay (PerpR) 和 Episodic Self-Replay (ESR) 两种基于回放的新方法,通过广泛实验验证了所提方法的有效性。
Mar, 2024
这篇论文探讨了如何通过迁移学习将抽象的 VLN 任务应用到真实的 VLN-CE 任务中,提高了原先 VLN-CE 任务的成功率,但并没有完全保持抽象环境下的表现,并且通过一系列实验找出了导致性能降低的原因,并提供了进一步改进的清晰方向。
Apr, 2022
本研究介绍了一种基于环境表示图(ERG)的跨模式注意力导航模型来解决语言说明与环境之间的联系问题,并在 VLN-CE 任务的成功率方面表现出令人满意的表现。
Jan, 2023
长期愿景是提高代理者和环境的感知、理解和交互能力,以实现具体导航的视觉 - 语言导航(VLN)作为实现具体导航的核心研究路径,关注代理者如何使用自然语言与人类进行有效沟通,接收和理解指令,并最终依靠视觉信息实现准确的导航。此综述系统回顾了 VLN 的研究进展并详细介绍了具体导航的研究方向,包括系统架构、基于方法的研究和常用基准数据集,全面分析了当前研究面临的问题和挑战,并探讨了该领域的未来发展方向,旨在为研究人员提供实用的参考。
Feb, 2024
该研究提出了一个用于视觉和语言导航的具有身体感知的语言模型(VELMA),它能够通过人类书写的导航指令中提取位置信息和使用 CLIP 算法来处理图像信息并实现与真实街景地图的交互,相比先前的研究,在两个数据集中,VELMA 完成任务的成功率相比前者提高了 25%-30%
Jul, 2023
该研究论文提出了一种基于连续三维重建环境的机器人视觉和语言导航(Robo-VLN)的设定,并利用分层决策,模块化训练和分离推理和模仿的策略,成功地解决了 Robo-VLN 这一新任务。通过使用 HCM 代理,研究者展示了比现有基线效果更好的结果,为 Robo-VLN 创造了新的基准。
Apr, 2021
在视觉语言导航(VLN)任务中,代理器需要按照自然语言指令导航到目的地。本文提出了一套方法来解决现有大型语言模型在构建记忆和导航策略多样性方面面临的问题,通过维护一个包含导航历史、视点、物体及它们的空间关系的拓扑地图来增强导航能力,并通过引入导航思维链模块富化导航策略多样性,最终通过整合感知和动作预测模块建立了一个能提高大型语言模型导航能力和解释性的流水线。实验证明,该方法有效地增强了大型语言模型的导航能力并提高了导航推理的可解释性。
May, 2024
利用预训练的分层神经辐射表示模型产生多层次语义特征,用于预测未来环境,提出前瞻导航模型以构建可导航的未来路径树并通过有效的并行评估选择最佳路径。
Apr, 2024
本研究提出了 EPTNav 探索实现连续环境下视觉语言导航的方法和框架,该框架着重于生成长距离导航计划和在连续环境中进行避障控制,并利用拓扑地图和指令生成自主导航计划。实验证明该方法的有效性,并在 R2R-CE 和 RxR-CE 数据集上分别获得超过 10% 和 20% 的改进。
Apr, 2023