LOViS: 为视觉语言导航学习方向和视觉信号

Sep, 2022

LOViS: 为视觉语言导航学习方向和视觉信号

LOViS: Learning Orientation and Visual Signals for Vision and Language Navigation

Yue Zhang, Parisa Kordjamshidi

TL;DR本文设计了一种具有显式方向和视觉模块的神经代理，通过特定的预训练任务，强化代理的空间推理和视觉感知，在 Room2room 和 Room4room 数据集上均取得了最先进的结果。

Abstract

Understanding spatial and visual information is essential for a navigation agent who follows natural language instructions. The current Transformer-based VLN agents entangle the orientation and vision information, which limits the gain from the learning of each information source. In t

transformer-based agents neural agent design spatial reasoning pre-training tasks navigation

发现论文，激发创造

VLN-Trans: 视觉语言导航代理翻译器

通过设计一个翻译模块，将原有语句转化为易于理解的子语句，该模块针对航行代理的视觉能力和环境观察结果，聚焦于可识别和有区分性的地标，通过训练翻译器和导航代理的特定任务，达到了在多个基准测试中取得最新颖成果的目标。

Feb, 2023

视觉语言导航中可转移的表征学习

我们的方法将预先训练的视觉和语言表示技术适应于相关领域的任务，通过在跨模态序列对齐和序列一致性任务中适应这些表示技术，从而提高了在 Room-to-Room（R2R）带权路径成功率（SPL）度量方面的性能。

Aug, 2019

诊断视觉语言导航：真正重要的事情

本文研究了视觉与语言导航的多模态任务，通过一系列诊断实验揭示不同类型的导航智能体的注意力焦点和跨模态理解能力，发现 Transformer 模型相对其他模型更具有对物体的跨模态理解能力，同时对于模型声称的跨模态对齐方式存在质疑。

Mar, 2021

面向视觉与语言导航的时空物体关系建模

利用交叉注意机制，通过对象关系提高代理导航能力，并引入回转惩罚损失函数以解决代理的重复位置访问问题。

Mar, 2024

视觉语言导航智能体的行为分析

为了成功，视觉语言导航（VLN）代理人必须能够根据周围环境将指令与行动联系起来。本研究开发了一种研究基于技能的代理人行为的方法，检查现有代理人在停止、转向和移动向指定对象或房间方面如何准确地进行指令的实施。我们的方法基于生成针对不同技能的干预措施，并测量代理人预测的变化。我们展示了一个详细的案例研究，分析了最新代理人的行为，然后比较了多个代理人在技能特定的能力评分方面。这种分析表明，训练中的偏见对代理人的行为具有持久影响，并且现有的模型能够建立简单的指称表达式。我们在模型之间的比较中发现，技能特定的评分与整体 VLN 任务表现的改进相关。

Jul, 2023

迭代式视觉语言导航

本研究提出了一种名为 IVLN（迭代视觉语言导航）的新范例用于评估自然语言引导的智能体在具有持久环境的不同场景中的导航表现。

Oct, 2022

视觉语言导航的模拟与实际转化

本文旨在研究如何将视觉 - 语言导航技术 (VLN) 从模拟场景应用于物理机器人，并提出了使用子目标模型和领域随机化等方法，以提升在未知环境下的表现。作者在 325 平方米的办公室内进行实验，结果表明，在提前采集和注释了占用图和导航图的情况下，模拟 - to - 真实的转移成功率可达 46.8%，而完全没有先前信息的情况下，转移成功率仅有 22.5%。

Nov, 2020

使用 Transformer 的拓扑规划实现视觉语言导航

本文介绍了一种基于模块化方法的视觉和语言导航技术，使用拓扑地图和注意机制来生成导航计划，并通过低级动作执行控制器实现。实验证明，该方法在自由遍历环境下优于以往的端到端方法。

Dec, 2020

视觉语言导航的主动信息收集

该研究提出了一种基于人类导航行为的智能视觉语言导航策略，通过赋予代理人主动信息收集能力和学习探索策略来解决当前方法产生的不确定性问题和效率低下问题，实验证明该方法能显著提高导航性能。

Jul, 2020

基于在线视觉语言映射的真实世界视觉语言导航

在本文中，我们提出了一个在真实世界中解决 VLN 任务的新型导航框架，该框架利用强大的基础模型，并包括四个关键组成部分：(1) 将语言指令转换为预定义的宏操作描述的 LLMs-based 指令解析器，(2) 构建实时的视觉 - 语言地图以保持对未知环境的空间和语义理解的在线视觉 - 语言映射器，(3) 基于语言索引的定位器，将每个宏操作描述重新映射到地图上的路径点位置，以及 (4) 基于 DD-PPO 的本地控制器，用于预测动作。我们在未知的实验室环境中使用 Interbotix LoCoBot WX250 对提出的流程进行了评估，而无需进行任何细微调整，在真实世界中，我们的流程明显优于 SOTA VLN 基线。

Oct, 2023