使用 Transformer 的拓扑规划实现视觉语言导航
本研究提出采用混合拓扑度量图来实现视觉和语言导航,其中拓扑地图用于长期规划,度量地图用于短期推理,通过深度特征和预训练框架学习语言信息地图表示,增强了跨模态接地和促进最终的语言引导导航目标,实验证明了地图路线在 VLN 中的有效性,该方法在三个 VLN 基准测试中取得了最新的最佳效果。
Dec, 2022
在 Vision-and-Language Navigation (VLN) 领域中,我们提出了一种基于 Transformer 的生成预训练模型(VLN-GPT),通过建模轨迹序列依赖关系来增强效率,并在训练过程中采用离线预训练和在线优化的方法,性能评估表明 VLN-GPT 超越了复杂的基于编码器的模型。
May, 2024
在本文中,我们提出了一个在真实世界中解决 VLN 任务的新型导航框架,该框架利用强大的基础模型,并包括四个关键组成部分:(1) 将语言指令转换为预定义的宏操作描述的 LLMs-based 指令解析器,(2) 构建实时的视觉 - 语言地图以保持对未知环境的空间和语义理解的在线视觉 - 语言映射器,(3) 基于语言索引的定位器,将每个宏操作描述重新映射到地图上的路径点位置,以及 (4) 基于 DD-PPO 的本地控制器,用于预测动作。我们在未知的实验室环境中使用 Interbotix LoCoBot WX250 对提出的流程进行了评估,而无需进行任何细微调整,在真实世界中,我们的流程明显优于 SOTA VLN 基线。
Oct, 2023
在视觉语言导航(VLN)任务中,代理器需要按照自然语言指令导航到目的地。本文提出了一套方法来解决现有大型语言模型在构建记忆和导航策略多样性方面面临的问题,通过维护一个包含导航历史、视点、物体及它们的空间关系的拓扑地图来增强导航能力,并通过引入导航思维链模块富化导航策略多样性,最终通过整合感知和动作预测模块建立了一个能提高大型语言模型导航能力和解释性的流水线。实验证明,该方法有效地增强了大型语言模型的导航能力并提高了导航推理的可解释性。
May, 2024
本研究提出了 EPTNav 探索实现连续环境下视觉语言导航的方法和框架,该框架着重于生成长距离导航计划和在连续环境中进行避障控制,并利用拓扑地图和指令生成自主导航计划。实验证明该方法的有效性,并在 R2R-CE 和 RxR-CE 数据集上分别获得超过 10% 和 20% 的改进。
Apr, 2023
本文研究了视觉与语言导航的多模态任务,通过一系列诊断实验揭示不同类型的导航智能体的注意力焦点和跨模态理解能力,发现 Transformer 模型相对其他模型更具有对物体的跨模态理解能力,同时对于模型声称的跨模态对齐方式存在质疑。
Mar, 2021
本文旨在研究如何将视觉 - 语言导航技术 (VLN) 从模拟场景应用于物理机器人,并提出了使用子目标模型和领域随机化等方法,以提升在未知环境下的表现。作者在 325 平方米的办公室内进行实验,结果表明,在提前采集和注释了占用图和导航图的情况下,模拟 - to - 真实的转移成功率可达 46.8%,而完全没有先前信息的情况下,转移成功率仅有 22.5%。
Nov, 2020
该研究论文提出了一种基于连续三维重建环境的机器人视觉和语言导航(Robo-VLN)的设定,并利用分层决策,模块化训练和分离推理和模仿的策略,成功地解决了 Robo-VLN 这一新任务。通过使用 HCM 代理,研究者展示了比现有基线效果更好的结果,为 Robo-VLN 创造了新的基准。
Apr, 2021
此篇研究提出了一种基于视觉和自然语言导航的多模态变长记忆转换器(MTVM)方法,用于模拟时间上下文,通过在存储器库中直接存储先前激活来跟踪导航轨迹,并提出了一种内存感知一致性损失来提高模型的性能。通过在 R2R 和 CVDN 数据集上的评估,该模型在验证集和测试集的成功率分别提高了 2%且将 CVDN 测试集的目标处理减少了 1.6m。
Nov, 2021
本文提出了一种基于目标驱动的结构化 Transformer 规划器(TD-STP)用于长期目标导向和房间布局感知的视觉语言导航任务,该规划器设计了想象场景的分词机制以及一种结构化的全局规划的神经注意力架构,并在 R2R 和 REVERIE 基准测试数据集上的测试结果上比现有最优方法的成功率分别提高了 2%和 5%
Jul, 2022