新路径:使用合成指令和模仿学习扩展视觉语言导航
通过利用大规模的房屋导览视频数据集,本文提出了一种视觉语言导航方法,使用自动构建的路径指令对训练的代理进行预训练,并利用视频中的布局信息来提高导航的泛化性能。通过实验结果表明,该方法在两个流行的基准测试(R2R 和 REVERIE)上取得了最先进的性能。
Jul, 2023
本文旨在研究如何将视觉 - 语言导航技术 (VLN) 从模拟场景应用于物理机器人,并提出了使用子目标模型和领域随机化等方法,以提升在未知环境下的表现。作者在 325 平方米的办公室内进行实验,结果表明,在提前采集和注释了占用图和导航图的情况下,模拟 - to - 真实的转移成功率可达 46.8%,而完全没有先前信息的情况下,转移成功率仅有 22.5%。
Nov, 2020
本文介绍了数据扩充方法以改善现有的人工智能模型在 VLN 任务中性能表现不佳的问题,该方法利用了 Matterport3D 数据集中的元数据信息来引导新的导航指令的生成,并在未见过的环境中使性能提高了 8%。
Oct, 2022
本文提出 Reinforced Cross-Modal Matching 和 Self-Supervised Imitation Learning 两个方法来解决语视导航中的跨模态匹配、学习反馈以及泛化问题,并通过实验证明这两种方法较之前的方法显著提高了成功率和准确度。
Nov, 2018
通过构建大规模数据集,研究了语言引导的视觉导航中各个组成部分对代理性能的影响,并通过简单模仿学习将现有代理的性能推向了一个显著的新高度,成功率达到了 80%,并将在已见和未见环境中导航的泛化差距降低到不到 1%。
Jul, 2023
本文提出了两种有效方法来改善视觉和语言导航 (VLN) 挑战中的指令表示和动作解码问题,一是使用大规模预训练语言模型来学习更好的文本表示,二是提出一种随机采样方案来减小训练和测试中动作的差距,从而使智能体可以在长序列的动作解码过程中学习自我纠正,将两项技术结合,成功地在 Room-to-Room 基准测试中取得了新的最优性能,以路径长度加权的成功率指标提高了 6% 绝对值 (47%—>53%)。
Sep, 2019
以连续学习为基础,提出了视觉语言导航的连续学习范式,通过重新组织已有的导航数据集,提出了 CVLN-I 和 CVLN-D 两个用于训练和评估 CVLN 代理的数据集,进一步提出了 Perplexity Replay (PerpR) 和 Episodic Self-Replay (ESR) 两种基于回放的新方法,通过广泛实验验证了所提方法的有效性。
Mar, 2024
通过视觉和语言方法的应用,本文提出了一个以真实影像为基础的强化学习环境 Matterport3D Simulator,为现实建筑物的自然语言导航问题提供了第一个基准测试数据集 Room-to-Room (R2R) dataset。
Nov, 2017
在 Vision-and-Language Navigation (VLN) 领域中,我们提出了一种基于 Transformer 的生成预训练模型(VLN-GPT),通过建模轨迹序列依赖关系来增强效率,并在训练过程中采用离线预训练和在线优化的方法,性能评估表明 VLN-GPT 超越了复杂的基于编码器的模型。
May, 2024