视觉语言导航的模拟与实际转化

Nov, 2020

Sim-to-Real Transfer for Vision-and-Language Navigation

Peter Anderson, Ayush Shrivastava, Joanne Truong, Arjun Majumdar, Devi Parikh...

TL;DR本文旨在研究如何将视觉 - 语言导航技术 (VLN) 从模拟场景应用于物理机器人，并提出了使用子目标模型和领域随机化等方法，以提升在未知环境下的表现。作者在 325 平方米的办公室内进行实验，结果表明，在提前采集和注释了占用图和导航图的情况下，模拟 - to - 真实的转移成功率可达 46.8%，而完全没有先前信息的情况下，转移成功率仅有 22.5%。

Abstract

We study the challenging problem of releasing a robot in a previously unseen environment, and having it follow unconstrained natural language navigation instructions. Recent work on the task of vision-and-language navigation (VLN) has achieved significant progress in →

vision-and-language navigation robotics simulation domain randomization occupancy map

发现论文，激发创造

基于连续环境下视觉语言导航的模拟到模拟转移

这篇论文探讨了如何通过迁移学习将抽象的 VLN 任务应用到真实的 VLN-CE 任务中，提高了原先 VLN-CE 任务的成功率，但并没有完全保持抽象环境下的表现，并且通过一系列实验找出了导致性能降低的原因，并提供了进一步改进的清晰方向。

Apr, 2022

基于 3D 特征场的视觉语言导航的模拟转现实迁移

通过模拟传递技术，赋予单目机器人全景遍历感知和全景语义理解，从而将高性能全景视觉 - 语言导航模型顺利应用于常见单目机器人，有效提高了机器人在实际环境中的导航性能。

Jun, 2024

基于在线视觉语言映射的真实世界视觉语言导航

在本文中，我们提出了一个在真实世界中解决 VLN 任务的新型导航框架，该框架利用强大的基础模型，并包括四个关键组成部分：(1) 将语言指令转换为预定义的宏操作描述的 LLMs-based 指令解析器，(2) 构建实时的视觉 - 语言地图以保持对未知环境的空间和语义理解的在线视觉 - 语言映射器，(3) 基于语言索引的定位器，将每个宏操作描述重新映射到地图上的路径点位置，以及 (4) 基于 DD-PPO 的本地控制器，用于预测动作。我们在未知的实验室环境中使用 Interbotix LoCoBot WX250 对提出的流程进行了评估，而无需进行任何细微调整，在真实世界中，我们的流程明显优于 SOTA VLN 基线。

Oct, 2023

视觉语言导航：在实际环境中解释基于视觉的导航指令

通过视觉和语言方法的应用，本文提出了一个以真实影像为基础的强化学习环境 Matterport3D Simulator，为现实建筑物的自然语言导航问题提供了第一个基准测试数据集 Room-to-Room (R2R) dataset。

Nov, 2017

视觉语言导航中可转移的表征学习

我们的方法将预先训练的视觉和语言表示技术适应于相关领域的任务，通过在跨模态序列对齐和序列一致性任务中适应这些表示技术，从而提高了在 Room-to-Room（R2R）带权路径成功率（SPL）度量方面的性能。

Aug, 2019

新路径：使用合成指令和模仿学习扩展视觉语言导航

利用 360 度全景数据生成的合成语音引导大型模拟数据集，使用模仿学习的简单 Transformer 模型，本文介绍了一种新的方式 —— 合成指令及大规模模仿学习来提高代理程序。

Oct, 2022

人类感知视觉 - 语言导航：通过动态人类交互缩小模拟与现实之间的鸿沟

Vision-and-Language Navigation involves developing embodied agents that navigate based on human instructions. This paper introduces Human-Aware Vision-and-Language Navigation by incorporating dynamic human activities and relaxing key assumptions, utilizing the HA3D simulator, HA-R2R dataset, Expert-Supervised Cross-Modal, and Non-Expert-Supervised Decision Transformer agents for effective navigation in dynamic human environments.

Jun, 2024

层次化跨模态机器人视觉语言导航智能体

该研究论文提出了一种基于连续三维重建环境的机器人视觉和语言导航（Robo-VLN）的设定，并利用分层决策，模块化训练和分离推理和模仿的策略，成功地解决了 Robo-VLN 这一新任务。通过使用 HCM 代理，研究者展示了比现有基线效果更好的结果，为 Robo-VLN 创造了新的基准。

Apr, 2021

迭代式视觉语言导航

本研究提出了一种名为 IVLN（迭代视觉语言导航）的新范例用于评估自然语言引导的智能体在具有持久环境的不同场景中的导航表现。

Oct, 2022

分析视觉和语言导航在未知的室外区域中的泛化能力

本研究探讨了在室外场景中，视觉代理如何跨越未知地形实现指令导航，发现与室内情况相比，图形化表达方式对室外导航具有更大的影响，因此未来的研究需关注在不同地形环境中的规模和多样性增长。

Mar, 2022