VTNet: 面向对象导航的视觉 Transformer 网络

ICLRMay, 2021

VTNet: 面向对象导航的视觉 Transformer 网络

VTNet: Visual Transformer Network for Object Goal Navigation

Heming Du, Xin Yu, Liang Zheng

TL;DR本文介绍了一种使用视觉转换网络技术的目标导航方法，该方法有效利用场景中各个物体之间的关系和空间位置，以实现方向导航，并通过预训练方案将视觉表示与导航信号进行关联，进一步提高了导航策略的学习效果。实验结果表明，这种方法在 AI2-Thor 等人工环境中的表现优于其他先进的目标导航方法。

Abstract

object goal navigation aims to steer an agent towards a target object based on observations of the agent. It is of pivotal importance to design effective visual representations of the observed scene in determining navigation actions. In this paper, we introduce a →

object goal navigation visual representation visual transformer network spatial location cues navigation policy learning

发现论文，激发创造

图像目标导航的变形金刚

利用生成式 Transformer 模型，通过联合建模图像目标、摄像头观察和机器人过去的动作来预测未来的动作，从而实现对于长时间跨度的图像目标导航任务的稳健的、无需与环境实时交互的目标导向导航策略。

May, 2024

OVRL-V2: ImageNav 和 ObjectNav 的简单基准线

我们提出了一个通用的神经网络架构，该架构由任务无关的组件组成，实现了在 ImageNav 和 ObjectNav 任务上的最新成果，而无需任何任务特定的模块，我们的模型是基于最近的自监督学习（SSL）和视觉变压器（ViT）的预训练模型构建，在 ViT 修补表示上操作一个压缩层以保留空间信息，并改进策略训练，这些改进使我们能够首次在视觉导航任务中展现了正向编放律。

Mar, 2023

LOViS: 为视觉语言导航学习方向和视觉信号

本文设计了一种具有显式方向和视觉模块的神经代理，通过特定的预训练任务，强化代理的空间推理和视觉感知，在 Room2room 和 Room4room 数据集上均取得了最先进的结果。

Sep, 2022

TDANet：面向目标导向的注意力网络在具备零样本能力的目标 - 目标视觉导航中的应用

提出了一种目标导向的注意网络（TDANet），用于学习具有零 - shot 能力的端到端目标导向视觉导航策略，并通过在 AI2-THOR 环境中进行的大量实验验证了 TDANet 的导航性能，其在未见过的场景和目标对象上表现出较高的导航成功率和成功率加权长度，优于其他最先进的模型。

Apr, 2024

零样本物体导向视觉导航

本文研究了零样本对象目标视觉导航任务，并提出了一种基于语义相似性网络的新型框架，用于在未训练过的类中引导机器人查找目标，通过在 AI2-THOR 平台上进行了广泛的实验，证明了我们模型的一般化能力强于基线模型。

Jun, 2022

SOAT: 一种面向场景和对象感知的视觉语言导航变换器

本论文提出了一个基于 transformer 的视觉与语言导航（VLN）代理，使用两种不同的视觉编码器，即场景分类网络和对象检测器，它们能匹配这两种不同类型的视觉提示，进而通过视觉和语言的预训练实现通向 Room-to-Room（R2R）和 Room-Across-Room（RxR）存在显著改进的效果。

Oct, 2021

视觉 - 语言导航生成预训练 Transformer

在 Vision-and-Language Navigation (VLN) 领域中，我们提出了一种基于 Transformer 的生成预训练模型（VLN-GPT），通过建模轨迹序列依赖关系来增强效率，并在训练过程中采用离线预训练和在线优化的方法，性能评估表明 VLN-GPT 超越了复杂的基于编码器的模型。

May, 2024

面向视觉与语言导航的时空物体关系建模

利用交叉注意机制，通过对象关系提高代理导航能力，并引入回转惩罚损失函数以解决代理的重复位置访问问题。

Mar, 2024

使用语义地图监督学习导航视觉表征

我们提出了一种新颖的导航特定的视觉表示学习方法，通过对比代理的自我中心视图和语义地图（Ego$^2$-Map），将地图中的紧凑且丰富的信息转移到代理的自我中心表示中，从而实现室内导航。我们的实验结果表明，采用我们学习到的表示的代理在目标导航中优于最近的视觉预训练方法，并且我们的表示显著改善了连续环境下的视觉和语言导航，在高级和低级行动空间上均取得了 47％的 SR 和 41％的 SPL 的最新最佳结果。

Jul, 2023

使用小数据集高效训练视觉 Transformer

本文研究使用自监督任务和少量数据进行训练的 Visual Transformer 网络的表现，并发现新的自监督任务可以在空间关系方面鼓励 VT 网络，从而显著提高其小数据集准确性。

Jun, 2021