OVRL-V2: ImageNav 和 ObjectNav 的简单基准线

Mar, 2023

OVRL-V2: ImageNav 和 ObjectNav 的简单基准线

OVRL-V2: A simple state-of-art baseline for ImageNav and ObjectNav

Karmesh Yadav, Arjun Majumdar, Ram Ramrakhya, Naoki Yokoyama, Alexei Baevski...

TL;DR我们提出了一个通用的神经网络架构，该架构由任务无关的组件组成，实现了在 ImageNav 和 ObjectNav 任务上的最新成果，而无需任何任务特定的模块，我们的模型是基于最近的自监督学习（SSL）和视觉变压器（ViT）的预训练模型构建，在 ViT 修补表示上操作一个压缩层以保留空间信息，并改进策略训练，这些改进使我们能够首次在视觉导航任务中展现了正向编放律。

Abstract

We present a single neural network architecture composed of task-agnostic components (ViTs, convolutions, and LSTMs) that achieves state-of-art results on both the ImageNav ("go to location in ") and ObjectNav ("find a chair") tasks without any task-specific modules like

neural network architecture self-supervised learning vision transformers spatial information visual navigation

发现论文，激发创造

VTNet: 面向对象导航的视觉 Transformer 网络

本文介绍了一种使用视觉转换网络技术的目标导航方法，该方法有效利用场景中各个物体之间的关系和空间位置，以实现方向导航，并通过预训练方案将视觉表示与导航信号进行关联，进一步提高了导航策略的学习效果。实验结果表明，这种方法在 AI2-Thor 等人工环境中的表现优于其他先进的目标导航方法。

May, 2021

基于自监督预训练 Vision Transformer 的单目机器人导航

使用自监督方法预训练的 Vision Transformer，成功地在使用 70 个训练图像的 Duckietown 环境中训练了一个粗略的图像分割模型，其推理分辨率可以调整以平衡预测粒度和实时感知约束，并用作简单而强大的视觉伺服代理的骨干，用于差分驱动移动机器人的车道跟踪和障碍物回避两个任务。

Mar, 2022

超导航：通过开放词汇检测和结构化表示提升迭代视觉语言导航

通过在迭代视觉语言导航（IVLN）技术中引入长期记忆，OVER-NAV 综合使用 LLMs 和开放词汇探测器来提炼关键信息、建立多模式信号之间的对应关系，并引入结构化表示 Omnigraph 和新颖的 Omnigraph 融合机制，以从 Omnigraph 中提取最相关的知识以实现更准确的导航操作。同时，OVER-NAV 在离散和连续环境下都能无缝支持，大量的实验证明了其卓越性能。

Mar, 2024

ViNT: 视觉导航的基础模型

本文介绍了使用 ViNT 作为基础模型来解决基于视觉的机器人导航问题，并通过灵活的 Transformer 架构提高了 ViNT 在不同任务中的适应性和迁移性能，同时允许其与由 GPS 路径或路线指令等嵌入式任务模式进行编码的目标编码器进行相互替换。

Jun, 2023

离线视觉表示学习用于体感导航

本文提出一种名为离线视觉表示学习的方法，通过使用自监督学习在大规模图片数据上进行离线预训练，再在线微调特定任务中的视觉运动表示，并在多个数据集上进行了实验，发现该方法在图像导航和目标导航任务上均取得了显著的性能提升。

Apr, 2022

LOViS: 为视觉语言导航学习方向和视觉信号

本文设计了一种具有显式方向和视觉模块的神经代理，通过特定的预训练任务，强化代理的空间推理和视觉感知，在 Room2room 和 Room4room 数据集上均取得了最先进的结果。

Sep, 2022

寻找高效的多阶段视觉 Transformer 模型

利用神经架构搜索（NAS）设计了一个有效的多阶段的 Vision Transformer 架构 ViT-ResNAS，其中融合了两个技术：残差空间缩减和权重共享 NAS，实验证明 ViT-ResNAS 在 ImageNet 数据集上能够取得比原始 DeiT 和其他强基线更好的精度 - MAC 和精度 - 吞吐量权衡。

Sep, 2021

零经验要求：语义视觉导航的即插即用模块化迁移学习

本研究提出了一种采用新型模块化迁移学习模型的视觉导航统一方法。该模型可以有效地利用从一个源任务积累的经验并将其应用于多个目标任务（例如，ObjectNav、RoomNav、ViewNav）以及具有各种目标模态（例如，图像、草图、音频、标签）的目标任务，同时实现了零点经验学习，这让模型可以在不接收任何任务特定的交互式训练的情况下解决目标任务。实验结果表明，与现有最优算法相比，我们的方法可以更快地学习，实现更好的泛化，并获得了明显的性能优势。

Feb, 2022

一个简单的单尺度视觉 Transformer 用于物体定位和实例分割

本文提出了一种简单的视觉 Transformer 设计，作为目标定位和实例分割任务的强大基线，绕过传统设计思路，通过 UViT 架构实现更好的计算成本和多尺度全局上下文聚合的平衡。

Dec, 2021

区域感知预训练与视觉 Transformer 实现开放式目标检测

提出了一种区域感知的开放词汇视觉 Transformer（RO-ViT）预训练方法，其中使用区域级别的位置嵌入来代替整个图像位置嵌入，取得了在 LVIS 和 COCO 开放词汇检测基准测试的最佳效果。

May, 2023