提出了 VLN-Video 方法来改善室外视觉与语言导航的性能,利用驾驶视频中多个城市的多样化室外环境和自动生成的导航指令和行动,通过结合传统直觉方法和现代深度学习技术进行预训练和微调,实现了在 Touchdown 数据集上 2.1%的任务完成率的显著提升,达到了最新的技术水平。
Feb, 2024
本文研究了视觉与语言导航的多模态任务,通过一系列诊断实验揭示不同类型的导航智能体的注意力焦点和跨模态理解能力,发现 Transformer 模型相对其他模型更具有对物体的跨模态理解能力,同时对于模型声称的跨模态对齐方式存在质疑。
Mar, 2021
该研究提出了一种基于人类导航行为的智能视觉语言导航策略,通过赋予代理人主动信息收集能力和学习探索策略来解决当前方法产生的不确定性问题和效率低下问题,实验证明该方法能显著提高导航性能。
Jul, 2020
在本文中,我们提出了一个在真实世界中解决 VLN 任务的新型导航框架,该框架利用强大的基础模型,并包括四个关键组成部分:(1) 将语言指令转换为预定义的宏操作描述的 LLMs-based 指令解析器,(2) 构建实时的视觉 - 语言地图以保持对未知环境的空间和语义理解的在线视觉 - 语言映射器,(3) 基于语言索引的定位器,将每个宏操作描述重新映射到地图上的路径点位置,以及 (4) 基于 DD-PPO 的本地控制器,用于预测动作。我们在未知的实验室环境中使用 Interbotix LoCoBot WX250 对提出的流程进行了评估,而无需进行任何细微调整,在真实世界中,我们的流程明显优于 SOTA VLN 基线。
Oct, 2023
本文旨在通过重新划分环境和特征替换的实验,探讨 Vision-and-Language Navigation 模型中的环境偏差问题。我们发现,ResNet 特征所传递的底层视觉外观直接影响了代理模型,进而导致环境偏差问题。根据这一发现,我们探索了几种包含较少底层视觉信息的语义表示形式,从而使使用这些特征的代理能够更好地推广到未见过的测试环境中。我们的探索性语义特征无需修改基线代理模型及其训练方式,在多个数据集上显著降低了已看和未见之间的性能差距,并取得了与先前的最先进模型具有竞争力的未见结果。
May, 2020
本论文提出了一种使用多模态对齐的鉴别器来评估视觉和语言导航任务中的自然语言指令,以及通过预训练组件暖启动 VLN 代理以改善其在以前看不见的环境中的表现的方法。
May, 2019
提出了一项名为 AerialVLN 的新任务,基于无人机(UAV)的、面向室外环境的导航,在提出的 3D 模拟器中使用高度逼真的城市景观照片进行连续导航并进行环境扩展和配置,基于跨模态对齐(CMA)导航方法的扩展基线模型,发现基线模型与人类表现之间仍存在显著差距,表明 AerialVLN 是一项具有挑战性的新任务。
Aug, 2023
本文综述了 Vision-and-Language Navigation(VLN)这一领域的现有研究,包括任务、评价指标、方法等,并通过结构化分析当前进展和挑战,强调了当前 VLN 的局限性和未来工作的机遇,是 VLN 研究社区的详尽参考。
Mar, 2022
本文介绍了数据扩充方法以改善现有的人工智能模型在 VLN 任务中性能表现不佳的问题,该方法利用了 Matterport3D 数据集中的元数据信息来引导新的导航指令的生成,并在未见过的环境中使性能提高了 8%。
Oct, 2022
介绍了一种基于多层次不确定指令下的视觉 - 语言导航(ULN)设置和相应的评估数据集,以提高导航任务的实用性。通过利用特定细节下的子网格(GSS)地面多级别的指令,结合利用 “Exploitation-to-Exploration (E2E)” 模块估计地面不确定性和导航代理进行多步先知探索,成功率较现有模型提高了约 10%。