通过语义更丰富的指令来弥补 VLN 中的视觉差距
提出了 VLN-Video 方法来改善室外视觉与语言导航的性能,利用驾驶视频中多个城市的多样化室外环境和自动生成的导航指令和行动,通过结合传统直觉方法和现代深度学习技术进行预训练和微调,实现了在 Touchdown 数据集上 2.1%的任务完成率的显著提升,达到了最新的技术水平。
Feb, 2024
本论文提出了一种使用多模态对齐的鉴别器来评估视觉和语言导航任务中的自然语言指令,以及通过预训练组件暖启动 VLN 代理以改善其在以前看不见的环境中的表现的方法。
May, 2019
本研究提出通过使用 900 个未标记的 3D 建筑从 HM3D 中自动创建 VLN 数据集,并通过预训练的语言模型对数据集进行微调,从而解决 VLN 方法中的数据稀缺性问题,从而大幅提高 VLN 模型的泛化能力。实验表明该方法在 REVERIE 和 SOON 数据集验证数据集上提高了 7.1% 和 8.1% 的 SPL 性能,取得了良好效果。
Aug, 2022
该研究提出了一种基于人类导航行为的智能视觉语言导航策略,通过赋予代理人主动信息收集能力和学习探索策略来解决当前方法产生的不确定性问题和效率低下问题,实验证明该方法能显著提高导航性能。
Jul, 2020
Vision-and-Language Navigation with Multi-modal Prompts (VLN-MP) integrates natural language and images in instructions, showing improved navigation performance through the use of multi-modal and visual prompts.
Jun, 2024
该研究旨在探讨智能体是否可以在导航的同时生成未来视图的语义,并通过三个代理任务和一项辅助损失来教授模型实现该目的;实验表明这种能力使智能体的性能得到了提升,并且学习如何预测未来视图语义使智能体对于长路径的表现更好。
Apr, 2023
本文研究了视觉与语言导航的多模态任务,通过一系列诊断实验揭示不同类型的导航智能体的注意力焦点和跨模态理解能力,发现 Transformer 模型相对其他模型更具有对物体的跨模态理解能力,同时对于模型声称的跨模态对齐方式存在质疑。
Mar, 2021
本研究探讨了在室外场景中,视觉代理如何跨越未知地形实现指令导航,发现与室内情况相比,图形化表达方式对室外导航具有更大的影响,因此未来的研究需关注在不同地形环境中的规模和多样性增长。
Mar, 2022
本文提出了 VLN-BERT 模型,使用从网页中收集的图像 - 文本对进行预训练,将其与具有相似领域的含路径语言训练数据相结合,取得了 4 个百分点的成功率提升,并得出每个阶段都非常有效,结合后具有更进一步的协同作用。
Apr, 2020
通过利用大规模的房屋导览视频数据集,本文提出了一种视觉语言导航方法,使用自动构建的路径指令对训练的代理进行预训练,并利用视频中的布局信息来提高导航的泛化性能。通过实验结果表明,该方法在两个流行的基准测试(R2R 和 REVERIE)上取得了最先进的性能。
Jul, 2023