图像目标导航的变形金刚

May, 2024

Transformers for Image-Goal Navigation

Nikhilanj Pelluri

TL;DR利用生成式 Transformer 模型，通过联合建模图像目标、摄像头观察和机器人过去的动作来预测未来的动作，从而实现对于长时间跨度的图像目标导航任务的稳健的、无需与环境实时交互的目标导向导航策略。

Abstract

visual perception and navigation have emerged as major focus areas in the field of embodied artificial intelligence. We consider the task of image-goal →

visual perception navigation image-goal navigation reinforcement learning generative transformer

发现论文，激发创造

基于 Transformer 的目标导向强化学习在自主导航中的应用

通过使用新型的 Goal-guided Transformer-enabled reinforcement learning 方法，将目标状态作为场景编码器的输入来引导场景表示与目标信息相耦合，从而有效实现自主导航。该方法具有比其他现有基线更高的数据效率、性能、鲁棒性和从仿真到真实世界的泛化能力。

Jan, 2023

通过对应关系实现端到端（实例）- 图像目标导航的新发现现象

通过使用预设任务和双编码器模型，本研究针对视觉导航中的视觉对应问题和目标检测进行了改进，取得了显著进展并在两个基准测试中达到了最佳性能。

Sep, 2023

基于记忆增强的强化学习在图像目标导航中的应用

该研究提出了一种基于记忆增强的注意力机制模型，利用序列记忆学习图像目标导航，模型表现优异，创造了新的最优结果。与相关工作不同的是，仅使用 RGB 图像输入，无需姿态 / 深度传感器等额外信息。

Jan, 2021

导航至特定图像所指示的对象

本研究介绍了一个可以在仿真和现实实现物体到达任务的系统，该系统采用模块化方法解决了探索、目标识别、目标定位和本地导航等子任务，无需任何微调，实现了较高的成功率，并在移动机器人平台上展示了有效的实际性能。

Apr, 2023

VTNet: 面向对象导航的视觉 Transformer 网络

本文介绍了一种使用视觉转换网络技术的目标导航方法，该方法有效利用场景中各个物体之间的关系和空间位置，以实现方向导航，并通过预训练方案将视觉表示与导航信号进行关联，进一步提高了导航策略的学习效果。实验结果表明，这种方法在 AI2-Thor 等人工环境中的表现优于其他先进的目标导航方法。

May, 2021

末端具身视觉导航

提出了一种名为 SLING 的新方法，致力于通过使用神经描述符和简单而有效的切换来改进现有的图像目标导航系统，在图像目标导航基准测试中取得了很大的成功，从而将成功率从 45％提高到 55％。

Nov, 2022

面向目标的结构化 Transformer 规划器用于视觉语言导航

本文提出了一种基于目标驱动的结构化 Transformer 规划器（TD-STP）用于长期目标导向和房间布局感知的视觉语言导航任务，该规划器设计了想象场景的分词机制以及一种结构化的全局规划的神经注意力架构，并在 R2R 和 REVERIE 基准测试数据集上的测试结果上比现有最优方法的成功率分别提高了 2％和 5％

Jul, 2022

基于自监督预训练 Vision Transformer 的单目机器人导航

使用自监督方法预训练的 Vision Transformer，成功地在使用 70 个训练图像的 Duckietown 环境中训练了一个粗略的图像分割模型，其推理分辨率可以调整以平衡预测粒度和实时感知约束，并用作简单而强大的视觉伺服代理的骨干，用于差分驱动移动机器人的车道跟踪和障碍物回避两个任务。

Mar, 2022

探索和导航的目标屏蔽扩散策略

机器人学习在陌生环境中导航需要提供任务导向导航和任务无关探索的策略。本文介绍了如何训练一个统一的扩散策略来处理目标导向导航和目标无关探索，证明了该统一策略在导航到视觉指示目标时相比于其他方法具有更好的性能和更低的碰撞率。

Oct, 2023

FGPrompt：用于图像目标导航的细粒度目标提示

通过 Fine-grained Goal Prompting (FGPrompt) 方法设计，本论文旨在解决学习导航到图像指定目标的困难问题，通过使用细粒度和高分辨率的特征图作为提示，以实现条件嵌入，从而改善图像目标导航的性能。

Oct, 2023