多模态图文导航中的视觉语言联系
本论文提出了一种使用多模态对齐的鉴别器来评估视觉和语言导航任务中的自然语言指令,以及通过预训练组件暖启动 VLN 代理以改善其在以前看不见的环境中的表现的方法。
May, 2019
本文研究了视觉与语言导航的多模态任务,通过一系列诊断实验揭示不同类型的导航智能体的注意力焦点和跨模态理解能力,发现 Transformer 模型相对其他模型更具有对物体的跨模态理解能力,同时对于模型声称的跨模态对齐方式存在质疑。
Mar, 2021
本文介绍了数据扩充方法以改善现有的人工智能模型在 VLN 任务中性能表现不佳的问题,该方法利用了 Matterport3D 数据集中的元数据信息来引导新的导航指令的生成,并在未见过的环境中使性能提高了 8%。
Oct, 2022
本研究探讨了在室外场景中,视觉代理如何跨越未知地形实现指令导航,发现与室内情况相比,图形化表达方式对室外导航具有更大的影响,因此未来的研究需关注在不同地形环境中的规模和多样性增长。
Mar, 2022
为了成功,视觉语言导航(VLN)代理人必须能够根据周围环境将指令与行动联系起来。本研究开发了一种研究基于技能的代理人行为的方法,检查现有代理人在停止、转向和移动向指定对象或房间方面如何准确地进行指令的实施。我们的方法基于生成针对不同技能的干预措施,并测量代理人预测的变化。我们展示了一个详细的案例研究,分析了最新代理人的行为,然后比较了多个代理人在技能特定的能力评分方面。这种分析表明,训练中的偏见对代理人的行为具有持久影响,并且现有的模型能够建立简单的指称表达式。我们在模型之间的比较中发现,技能特定的评分与整体 VLN 任务表现的改进相关。
Jul, 2023
Vision-and-Language Navigation with Multi-modal Prompts (VLN-MP) integrates natural language and images in instructions, showing improved navigation performance through the use of multi-modal and visual prompts.
Jun, 2024
提出了 VLN-Video 方法来改善室外视觉与语言导航的性能,利用驾驶视频中多个城市的多样化室外环境和自动生成的导航指令和行动,通过结合传统直觉方法和现代深度学习技术进行预训练和微调,实现了在 Touchdown 数据集上 2.1%的任务完成率的显著提升,达到了最新的技术水平。
Feb, 2024
本研究提出了 VLMaps,一种将 3D 物理世界重建与预训练的视觉语言特征直接融合的空间地图表示,其能够通过大型语言模型将自然语言命令直接转化为空间导航目标。VLMaps 能够在不需要额外标注数据的情况下自主构建,并且可以与多种类型的机器人共享,能够进行导航的同时生成新的障碍物地图。实验表明,VLMaps 可以支持人类语言含义更丰富的导航指令。
Oct, 2022
本文提出了 VLN-BERT 模型,使用从网页中收集的图像 - 文本对进行预训练,将其与具有相似领域的含路径语言训练数据相结合,取得了 4 个百分点的成功率提升,并得出每个阶段都非常有效,结合后具有更进一步的协同作用。
Apr, 2020