基于 3D 特征场的视觉语言导航的模拟转现实迁移

Jun, 2024

基于 3D 特征场的视觉语言导航的模拟转现实迁移

Sim-to-Real Transfer via 3D Feature Fields for Vision-and-Language Navigation

Zihan Wang, Xiangyang Li, Jiahao Yang, Yeqi, Shuqiang Jiang

TL;DR通过模拟传递技术，赋予单目机器人全景遍历感知和全景语义理解，从而将高性能全景视觉 - 语言导航模型顺利应用于常见单目机器人，有效提高了机器人在实际环境中的导航性能。

Abstract

vision-and-language navigation (VLN) enables the agent to navigate to a remote location in 3D environments following the natural language instruction. In this field, the agent is usually trained and evaluated in the navigation simulators, lacking effective approaches for →

vision-and-language navigation sim-to-real transfer monocular robots panoramic observation traversable map

发现论文，激发创造

视觉语言导航的模拟与实际转化

本文旨在研究如何将视觉 - 语言导航技术 (VLN) 从模拟场景应用于物理机器人，并提出了使用子目标模型和领域随机化等方法，以提升在未知环境下的表现。作者在 325 平方米的办公室内进行实验，结果表明，在提前采集和注释了占用图和导航图的情况下，模拟 - to - 真实的转移成功率可达 46.8%，而完全没有先前信息的情况下，转移成功率仅有 22.5%。

Nov, 2020

基于在线视觉语言映射的真实世界视觉语言导航

在本文中，我们提出了一个在真实世界中解决 VLN 任务的新型导航框架，该框架利用强大的基础模型，并包括四个关键组成部分：(1) 将语言指令转换为预定义的宏操作描述的 LLMs-based 指令解析器，(2) 构建实时的视觉 - 语言地图以保持对未知环境的空间和语义理解的在线视觉 - 语言映射器，(3) 基于语言索引的定位器，将每个宏操作描述重新映射到地图上的路径点位置，以及 (4) 基于 DD-PPO 的本地控制器，用于预测动作。我们在未知的实验室环境中使用 Interbotix LoCoBot WX250 对提出的流程进行了评估，而无需进行任何细微调整，在真实世界中，我们的流程明显优于 SOTA VLN 基线。

Oct, 2023

人类感知视觉 - 语言导航：通过动态人类交互缩小模拟与现实之间的鸿沟

Vision-and-Language Navigation involves developing embodied agents that navigate based on human instructions. This paper introduces Human-Aware Vision-and-Language Navigation by incorporating dynamic human activities and relaxing key assumptions, utilizing the HA3D simulator, HA-R2R dataset, Expert-Supervised Cross-Modal, and Non-Expert-Supervised Decision Transformer agents for effective navigation in dynamic human environments.

Jun, 2024

基于连续环境下视觉语言导航的模拟到模拟转移

这篇论文探讨了如何通过迁移学习将抽象的 VLN 任务应用到真实的 VLN-CE 任务中，提高了原先 VLN-CE 任务的成功率，但并没有完全保持抽象环境下的表现，并且通过一系列实验找出了导致性能降低的原因，并提供了进一步改进的清晰方向。

Apr, 2022

视觉语言导航的体积环境表示

基于视觉观察和自然语言指令，本论文提出了一种基于体素化环境表示的视觉语言导航模型，在多任务学习的影响下，预测 3D 占用、3D 房间布局和 3D 边界框，并通过在线采集的环境表示进行体积状态估计和建立序列记忆，取得了在 VLN 基准测试（R2R，REVERIE 和 R4R）上最先进的性能。

Mar, 2024

在无标注三维环境中学习视觉语言导航

本研究提出通过使用 900 个未标记的 3D 建筑从 HM3D 中自动创建 VLN 数据集，并通过预训练的语言模型对数据集进行微调，从而解决 VLN 方法中的数据稀缺性问题，从而大幅提高 VLN 模型的泛化能力。实验表明该方法在 REVERIE 和 SOON 数据集验证数据集上提高了 7.1% 和 8.1% 的 SPL 性能，取得了良好效果。

Aug, 2022

视觉语言导航中可转移的表征学习

我们的方法将预先训练的视觉和语言表示技术适应于相关领域的任务，通过在跨模态序列对齐和序列一致性任务中适应这些表示技术，从而提高了在 Room-to-Room（R2R）带权路径成功率（SPL）度量方面的性能。

Aug, 2019

通过生成未来视角图像语义来提升视觉 - 语言导航能力

该研究旨在探讨智能体是否可以在导航的同时生成未来视图的语义，并通过三个代理任务和一项辅助损失来教授模型实现该目的；实验表明这种能力使智能体的性能得到了提升，并且学习如何预测未来视图语义使智能体对于长路径的表现更好。

Apr, 2023

视觉语言导航的多模态判别模型

本论文提出了一种使用多模态对齐的鉴别器来评估视觉和语言导航任务中的自然语言指令，以及通过预训练组件暖启动 VLN 代理以改善其在以前看不见的环境中的表现的方法。

May, 2019

诊断视觉语言导航：真正重要的事情

本文研究了视觉与语言导航的多模态任务，通过一系列诊断实验揭示不同类型的导航智能体的注意力焦点和跨模态理解能力，发现 Transformer 模型相对其他模型更具有对物体的跨模态理解能力，同时对于模型声称的跨模态对齐方式存在质疑。

Mar, 2021