VTNet: 面向对象导航的视觉 Transformer 网络
利用生成式 Transformer 模型,通过联合建模图像目标、摄像头观察和机器人过去的动作来预测未来的动作,从而实现对于长时间跨度的图像目标导航任务的稳健的、无需与环境实时交互的目标导向导航策略。
May, 2024
我们提出了一个通用的神经网络架构,该架构由任务无关的组件组成,实现了在 ImageNav 和 ObjectNav 任务上的最新成果,而无需任何任务特定的模块,我们的模型是基于最近的自监督学习(SSL)和视觉变压器(ViT)的预训练模型构建,在 ViT 修补表示上操作一个压缩层以保留空间信息,并改进策略训练,这些改进使我们能够首次在视觉导航任务中展现了正向编放律。
Mar, 2023
本文设计了一种具有显式方向和视觉模块的神经代理,通过特定的预训练任务,强化代理的空间推理和视觉感知,在 Room2room 和 Room4room 数据集上均取得了最先进的结果。
Sep, 2022
提出了一种目标导向的注意网络(TDANet),用于学习具有零 - shot 能力的端到端目标导向视觉导航策略,并通过在 AI2-THOR 环境中进行的大量实验验证了 TDANet 的导航性能,其在未见过的场景和目标对象上表现出较高的导航成功率和成功率加权长度,优于其他最先进的模型。
Apr, 2024
本文研究了零样本对象目标视觉导航任务,并提出了一种基于语义相似性网络的新型框架,用于在未训练过的类中引导机器人查找目标,通过在 AI2-THOR 平台上进行了广泛的实验,证明了我们模型的一般化能力强于基线模型。
Jun, 2022
本论文提出了一个基于 transformer 的视觉与语言导航(VLN)代理,使用两种不同的视觉编码器,即场景分类网络和对象检测器,它们能匹配这两种不同类型的视觉提示,进而通过视觉和语言的预训练实现通向 Room-to-Room(R2R)和 Room-Across-Room(RxR)存在显著改进的效果。
Oct, 2021
在 Vision-and-Language Navigation (VLN) 领域中,我们提出了一种基于 Transformer 的生成预训练模型(VLN-GPT),通过建模轨迹序列依赖关系来增强效率,并在训练过程中采用离线预训练和在线优化的方法,性能评估表明 VLN-GPT 超越了复杂的基于编码器的模型。
May, 2024
我们提出了一种新颖的导航特定的视觉表示学习方法,通过对比代理的自我中心视图和语义地图(Ego$^2$-Map),将地图中的紧凑且丰富的信息转移到代理的自我中心表示中,从而实现室内导航。我们的实验结果表明,采用我们学习到的表示的代理在目标导航中优于最近的视觉预训练方法,并且我们的表示显著改善了连续环境下的视觉和语言导航,在高级和低级行动空间上均取得了 47%的 SR 和 41%的 SPL 的最新最佳结果。
Jul, 2023
本文研究使用自监督任务和少量数据进行训练的 Visual Transformer 网络的表现,并发现新的自监督任务可以在空间关系方面鼓励 VT 网络,从而显著提高其小数据集准确性。
Jun, 2021