本文设计了一种具有显式方向和视觉模块的神经代理,通过特定的预训练任务,强化代理的空间推理和视觉感知,在 Room2room 和 Room4room 数据集上均取得了最先进的结果。
Sep, 2022
我们的方法将预先训练的视觉和语言表示技术适应于相关领域的任务,通过在跨模态序列对齐和序列一致性任务中适应这些表示技术,从而提高了在 Room-to-Room(R2R) 带权路径成功率(SPL)度量方面的性能。
Aug, 2019
本文研究了视觉与语言导航的多模态任务,通过一系列诊断实验揭示不同类型的导航智能体的注意力焦点和跨模态理解能力,发现 Transformer 模型相对其他模型更具有对物体的跨模态理解能力,同时对于模型声称的跨模态对齐方式存在质疑。
Mar, 2021
本文介绍了数据扩充方法以改善现有的人工智能模型在 VLN 任务中性能表现不佳的问题,该方法利用了 Matterport3D 数据集中的元数据信息来引导新的导航指令的生成,并在未见过的环境中使性能提高了 8%。
Oct, 2022
导航和语言导航的现有研究主要依赖于导航相关的损失,以建立视觉和语言模态之间的联系,忽视了帮助导航代理机构建立对视觉环境的深入理解的方面。在我们的工作中,我们通过提示生成器为导航代理提供间接监督,提供详细的视觉描述。提示生成器帮助导航代理机构开发对视觉环境的整体理解,指导代理机构注意相关的导航细节,包括相关的子指导、识别的潜在挑战和限制、以及目标视点描述。为了训练提示生成器,我们根据指导中的地标和可见的与众不同的物体构建了一个合成数据集。我们在 R2R 和 R4R 数据集上评估了我们的方法,并在几个度量标准上取得了最先进的结果。实验结果表明,生成提示不仅提高了导航性能,还有助于提高代理机构行动的可解释性。
Feb, 2024
本文提出了一个精细度更高的注释,以便在自然语言指令下更好地完成环境中的导航,为此使用了带有细致的注释的 Room-to-Room(R2R)基准数据集。并引入有效的子指令注意力和移位模块,在每个时间步选择并关注单个子指令,实现了此子指令模块,与四个最新的代理基线模型进行了比较,并展示了我们提出的方法改进了所有四个代理的性能。
Apr, 2020
本研究提出了一种名为 IVLN(迭代视觉语言导航)的新范例用于评估自然语言引导的智能体在具有持久环境的不同场景中的导航表现。
通过视觉和语言方法的应用,本文提出了一个以真实影像为基础的强化学习环境 Matterport3D Simulator,为现实建筑物的自然语言导航问题提供了第一个基准测试数据集 Room-to-Room (R2R) dataset。
Nov, 2017
本文旨在研究如何将视觉 - 语言导航技术 (VLN) 从模拟场景应用于物理机器人,并提出了使用子目标模型和领域随机化等方法,以提升在未知环境下的表现。作者在 325 平方米的办公室内进行实验,结果表明,在提前采集和注释了占用图和导航图的情况下,模拟 - to - 真实的转移成功率可达 46.8%,而完全没有先前信息的情况下,转移成功率仅有 22.5%。
Nov, 2020
利用 360 度全景数据生成的合成语音引导大型模拟数据集,使用模仿学习的简单 Transformer 模型,本文介绍了一种新的方式 —— 合成指令及大规模模仿学习来提高代理程序。