MiniVLN:通过渐进知识蒸馏实现高效的视觉与语言导航
研究了在Vision-and-Language Navigation中,通过利用动态卷积滤波器对视觉信息和语言描述进行编码的方式,设计了一个新的策略,旨在解码为一系列低级的动作序列,与以前的方法相比,该策略在低级别行动空间中表现更佳,并尝试对近期的VLN工作进行了分类。
Jul, 2019
本文研究了视觉与语言导航的多模态任务,通过一系列诊断实验揭示不同类型的导航智能体的注意力焦点和跨模态理解能力,发现Transformer模型相对其他模型更具有对物体的跨模态理解能力,同时对于模型声称的跨模态对齐方式存在质疑。
Mar, 2021
本文综述了Vision-and-Language Navigation(VLN)这一领域的现有研究,包括任务、评价指标、方法等,并通过结构化分析当前进展和挑战,强调了当前VLN的局限性和未来工作的机遇,是VLN研究社区的详尽参考。
Mar, 2022
本文介绍了数据扩充方法以改善现有的人工智能模型在VLN任务中性能表现不佳的问题,该方法利用了Matterport3D数据集中的元数据信息来引导新的导航指令的生成,并在未见过的环境中使性能提高了8%。
Oct, 2022
长期愿景是提高代理者和环境的感知、理解和交互能力,以实现具体导航的视觉-语言导航(VLN)作为实现具体导航的核心研究路径,关注代理者如何使用自然语言与人类进行有效沟通,接收和理解指令,并最终依靠视觉信息实现准确的导航。此综述系统回顾了VLN的研究进展并详细介绍了具体导航的研究方向,包括系统架构、基于方法的研究和常用基准数据集,全面分析了当前研究面临的问题和挑战,并探讨了该领域的未来发展方向,旨在为研究人员提供实用的参考。
Feb, 2024
通过构建导航思维链(NavCoT)进行领域内训练的新策略,提高了基于大型语言模型(LLM)的自主导航决策性能以减少领域差距。NavCoT相对于直接行动预测的变体在各种训练设置和流行的视听导航基准上表现明显优越,并通过简单的参数微调在R2R数据集上实现了约7%的相对改进。该方法将帮助开发更适应任务且可扩展的基于LLM的真实世界机器人应用。
Mar, 2024
这篇论文介绍了使用知识蒸馏来获得轻量级学生模型的巨大潜力,其中提出了一种元能力引导的交互式蒸馏链(MAGIC)方法,该方法可帮助将大型模型集成到机器人技术中,该方法在视听导航任务中超越了现有的先前方法,同时提出了一种新的数据集,展示了MAGIC-S模型在我们的生活环境中超越的性能和实时效率。
Jun, 2024
Vision-and-Language Navigation involves developing embodied agents that navigate based on human instructions. This paper introduces Human-Aware Vision-and-Language Navigation by incorporating dynamic human activities and relaxing key assumptions, utilizing the HA3D simulator, HA-R2R dataset, Expert-Supervised Cross-Modal, and Non-Expert-Supervised Decision Transformer agents for effective navigation in dynamic human environments.
Jun, 2024
通过采用一个原则性的框架对现有方法进行全面检讨,该综述着重于借助基础模型解决Vision-and-Language Navigation(VLN)领域的挑战,以及探索未来机遇和潜在角色。我们希望通过深入讨论提供有价值的资源和见解,不仅能够记录进展并探索基础模型在该领域中的机遇,而且能够对VLN中的不同挑战和解决方案进行分类整理,为基础模型研究人员提供帮助。
Jul, 2024