SOAT: 一种面向场景和对象感知的视觉语言导航变换器

Oct, 2021

SOAT: 一种面向场景和对象感知的视觉语言导航变换器

SOAT: A Scene- and Object-Aware Transformer for Vision-and-Language Navigation

Abhinav Moudgil, Arjun Majumdar, Harsh Agrawal, Stefan Lee, Dhruv Batra

TL;DR本论文提出了一个基于 transformer 的视觉与语言导航（VLN）代理，使用两种不同的视觉编码器，即场景分类网络和对象检测器，它们能匹配这两种不同类型的视觉提示，进而通过视觉和语言的预训练实现通向 Room-to-Room（R2R）和 Room-Across-Room（RxR）存在显著改进的效果。

Abstract

natural language instructions for visual navigation often use scene descriptions (e.g., "bedroom") and object references (e.g., "green chairs") to provide a breadcrumb trail to a goal location. This work presents

natural language instructions visual navigation transformer-based vision-and-language object detector pretraining

发现论文，激发创造

LOViS: 为视觉语言导航学习方向和视觉信号

本文设计了一种具有显式方向和视觉模块的神经代理，通过特定的预训练任务，强化代理的空间推理和视觉感知，在 Room2room 和 Room4room 数据集上均取得了最先进的结果。

Sep, 2022

面向物体和动作的视觉语言导航模型

本研究提出了一种针对 Vision-and-Language Navigation 中，不同类型自然语言信息处理的 Object-and-Action Aware Model，并设计了一种简单但有效的路径损失函数，以优化机器人在导航中的方向选择。实验结果在 R2R 数据集的 SPL 得分和在 R4R 数据集中的 CLS 得分方面显著超过现有技术。

Jul, 2020

Meta-Explore：使用场景对象频谱基础的探索性分层视觉语言导航

提出了 Meta-Explore 方法，该方法使用一种基于 2D 傅立叶变换的新型视觉表示方法 - 场景对象谱，结合了一种利用未探索状态的利用策略，以及带有语义信息的后悔探索方法，从而可以更好地解决 VLN 中跟随自然语言指令进行导航的问题，并在三个 VLN 基准测试中，Meta-Explore 相对于其他基线模型表现出更好的性能。

Mar, 2023

面向视觉与语言导航的时空物体关系建模

利用交叉注意机制，通过对象关系提高代理导航能力，并引入回转惩罚损失函数以解决代理的重复位置访问问题。

Mar, 2024

利用场景特定特征进行物体目标导航

本文研究了在复杂的家庭环境中，物体和房间之间的内在关系是否有助于视觉导航任务中的智能体。我们通过一个新的降低训练难度的数据集提出了一种基于关注力机制的模型，该模型可以定量地利用场景和物体之间的相关性，从而能够实现导航模型的快速训练和更好的性能。

Aug, 2020

视觉语言导航中可转移的表征学习

我们的方法将预先训练的视觉和语言表示技术适应于相关领域的任务，通过在跨模态序列对齐和序列一致性任务中适应这些表示技术，从而提高了在 Room-to-Room（R2R）带权路径成功率（SPL）度量方面的性能。

Aug, 2019

VTNet: 面向对象导航的视觉 Transformer 网络

本文介绍了一种使用视觉转换网络技术的目标导航方法，该方法有效利用场景中各个物体之间的关系和空间位置，以实现方向导航，并通过预训练方案将视觉表示与导航信号进行关联，进一步提高了导航策略的学习效果。实验结果表明，这种方法在 AI2-Thor 等人工环境中的表现优于其他先进的目标导航方法。

May, 2021

VLN-Trans: 视觉语言导航代理翻译器

通过设计一个翻译模块，将原有语句转化为易于理解的子语句，该模块针对航行代理的视觉能力和环境观察结果，聚焦于可识别和有区分性的地标，通过训练翻译器和导航代理的特定任务，达到了在多个基准测试中取得最新颖成果的目标。

Feb, 2023

基于在线视觉语言映射的真实世界视觉语言导航

在本文中，我们提出了一个在真实世界中解决 VLN 任务的新型导航框架，该框架利用强大的基础模型，并包括四个关键组成部分：(1) 将语言指令转换为预定义的宏操作描述的 LLMs-based 指令解析器，(2) 构建实时的视觉 - 语言地图以保持对未知环境的空间和语义理解的在线视觉 - 语言映射器，(3) 基于语言索引的定位器，将每个宏操作描述重新映射到地图上的路径点位置，以及 (4) 基于 DD-PPO 的本地控制器，用于预测动作。我们在未知的实验室环境中使用 Interbotix LoCoBot WX250 对提出的流程进行了评估，而无需进行任何细微调整，在真实世界中，我们的流程明显优于 SOTA VLN 基线。

Oct, 2023

结构化场景记忆用于视觉语言导航

提出一种名为结构化场景记忆（SSM）的模型架构，通过具有采集 - 读取控制器的全面行动空间和以前视经验的编码来辅助导航决策，并实现长程推理和全局规划，证明在 R2R 和 R4R 度量标准上实现了最先进的表现。

Mar, 2021