视觉语言导航的模拟与实际转化
这篇论文探讨了如何通过迁移学习将抽象的 VLN 任务应用到真实的 VLN-CE 任务中,提高了原先 VLN-CE 任务的成功率,但并没有完全保持抽象环境下的表现,并且通过一系列实验找出了导致性能降低的原因,并提供了进一步改进的清晰方向。
Apr, 2022
通过模拟传递技术,赋予单目机器人全景遍历感知和全景语义理解,从而将高性能全景视觉 - 语言导航模型顺利应用于常见单目机器人,有效提高了机器人在实际环境中的导航性能。
Jun, 2024
在本文中,我们提出了一个在真实世界中解决 VLN 任务的新型导航框架,该框架利用强大的基础模型,并包括四个关键组成部分:(1) 将语言指令转换为预定义的宏操作描述的 LLMs-based 指令解析器,(2) 构建实时的视觉 - 语言地图以保持对未知环境的空间和语义理解的在线视觉 - 语言映射器,(3) 基于语言索引的定位器,将每个宏操作描述重新映射到地图上的路径点位置,以及 (4) 基于 DD-PPO 的本地控制器,用于预测动作。我们在未知的实验室环境中使用 Interbotix LoCoBot WX250 对提出的流程进行了评估,而无需进行任何细微调整,在真实世界中,我们的流程明显优于 SOTA VLN 基线。
Oct, 2023
通过视觉和语言方法的应用,本文提出了一个以真实影像为基础的强化学习环境 Matterport3D Simulator,为现实建筑物的自然语言导航问题提供了第一个基准测试数据集 Room-to-Room (R2R) dataset。
Nov, 2017
我们的方法将预先训练的视觉和语言表示技术适应于相关领域的任务,通过在跨模态序列对齐和序列一致性任务中适应这些表示技术,从而提高了在 Room-to-Room(R2R) 带权路径成功率(SPL)度量方面的性能。
Aug, 2019
利用 360 度全景数据生成的合成语音引导大型模拟数据集,使用模仿学习的简单 Transformer 模型,本文介绍了一种新的方式 —— 合成指令及大规模模仿学习来提高代理程序。
Oct, 2022
Vision-and-Language Navigation involves developing embodied agents that navigate based on human instructions. This paper introduces Human-Aware Vision-and-Language Navigation by incorporating dynamic human activities and relaxing key assumptions, utilizing the HA3D simulator, HA-R2R dataset, Expert-Supervised Cross-Modal, and Non-Expert-Supervised Decision Transformer agents for effective navigation in dynamic human environments.
Jun, 2024
该研究论文提出了一种基于连续三维重建环境的机器人视觉和语言导航(Robo-VLN)的设定,并利用分层决策,模块化训练和分离推理和模仿的策略,成功地解决了 Robo-VLN 这一新任务。通过使用 HCM 代理,研究者展示了比现有基线效果更好的结果,为 Robo-VLN 创造了新的基准。
Apr, 2021
本研究探讨了在室外场景中,视觉代理如何跨越未知地形实现指令导航,发现与室内情况相比,图形化表达方式对室外导航具有更大的影响,因此未来的研究需关注在不同地形环境中的规模和多样性增长。
Mar, 2022