MiniVLN：通过渐进知识蒸馏实现高效的视觉与语言导航

Sep, 2024

MiniVLN：通过渐进知识蒸馏实现高效的视觉与语言导航

MiniVLN: Efficient Vision-and-Language Navigation by Progressive Knowledge Distillation

Junyou Zhu, Yanyuan Qiao, Siqi Zhang, Xingjian He, Qi Wu...

TL;DR本研究解决了智能体人工智能平台中模型庞大与计算能力有限之间的矛盾，专注于视觉与语言导航任务。提出的双阶段知识蒸馏框架有效捕捉了细粒度知识和导航特定知识，使得MiniVLN在参数量仅为教师模型12%的情况下，与教师模型的性能持平，展现了轻量级模型的巨大潜力。

Abstract

In recent years, Embodied Artificial Intelligence (Embodied AI) has advanced rapidly, yet the increasing size of models conflicts with the limited computational capabilities of Embodied AI platforms. To address t

发现论文，激发创造

具身视觉与语言导航中的动态卷积滤波器

研究了在Vision-and-Language Navigation中，通过利用动态卷积滤波器对视觉信息和语言描述进行编码的方式，设计了一个新的策略，旨在解码为一系列低级的动作序列，与以前的方法相比，该策略在低级别行动空间中表现更佳，并尝试对近期的VLN工作进行了分类。

Jul, 2019

诊断视觉语言导航：真正重要的事情

本文研究了视觉与语言导航的多模态任务，通过一系列诊断实验揭示不同类型的导航智能体的注意力焦点和跨模态理解能力，发现Transformer模型相对其他模型更具有对物体的跨模态理解能力，同时对于模型声称的跨模态对齐方式存在质疑。

Mar, 2021

视觉与语言导航：任务、方法和未来发展综述

本文综述了Vision-and-Language Navigation（VLN）这一领域的现有研究，包括任务、评价指标、方法等，并通过结构化分析当前进展和挑战，强调了当前VLN的局限性和未来工作的机遇，是VLN研究社区的详尽参考。

Mar, 2022

通过语义更丰富的指令来弥补VLN中的视觉差距

本文介绍了数据扩充方法以改善现有的人工智能模型在VLN任务中性能表现不佳的问题，该方法利用了Matterport3D数据集中的元数据信息来引导新的导航指令的生成，并在未见过的环境中使性能提高了8%。

Oct, 2022

移动之前进行讨论：通过多专家讨论进行视觉语言导航

通过与专家的讨论，我们引入了一种新的零射击视觉语言导航框架，命名为DiscussNav，能够有效地增强导航性能。

Sep, 2023

具备体验智能的视觉-语言导航：综述

长期愿景是提高代理者和环境的感知、理解和交互能力，以实现具体导航的视觉-语言导航（VLN）作为实现具体导航的核心研究路径，关注代理者如何使用自然语言与人类进行有效沟通，接收和理解指令，并最终依靠视觉信息实现准确的导航。此综述系统回顾了VLN的研究进展并详细介绍了具体导航的研究方向，包括系统架构、基于方法的研究和常用基准数据集，全面分析了当前研究面临的问题和挑战，并探讨了该领域的未来发展方向，旨在为研究人员提供实用的参考。

Feb, 2024

NavCoT: 基于学习的解耦推理，提升基于LLM的视觉与语言导航

通过构建导航思维链（NavCoT）进行领域内训练的新策略，提高了基于大型语言模型（LLM）的自主导航决策性能以减少领域差距。NavCoT相对于直接行动预测的变体在各种训练设置和流行的视听导航基准上表现明显优越，并通过简单的参数微调在R2R数据集上实现了约7％的相对改进。该方法将帮助开发更适应任务且可扩展的基于LLM的真实世界机器人应用。

Mar, 2024

MAGIC：元能力引导下的有效高效视觉语言导航链式蒸馏

这篇论文介绍了使用知识蒸馏来获得轻量级学生模型的巨大潜力，其中提出了一种元能力引导的交互式蒸馏链（MAGIC）方法，该方法可帮助将大型模型集成到机器人技术中，该方法在视听导航任务中超越了现有的先前方法，同时提出了一种新的数据集，展示了MAGIC-S模型在我们的生活环境中超越的性能和实时效率。

Jun, 2024

人类感知视觉-语言导航：通过动态人类交互缩小模拟与现实之间的鸿沟

Vision-and-Language Navigation involves developing embodied agents that navigate based on human instructions. This paper introduces Human-Aware Vision-and-Language Navigation by incorporating dynamic human activities and relaxing key assumptions, utilizing the HA3D simulator, HA-R2R dataset, Expert-Supervised Cross-Modal, and Non-Expert-Supervised Decision Transformer agents for effective navigation in dynamic human environments.

Jun, 2024

视觉与语言导航的现状和未来：基于基础模型时代的调查

通过采用一个原则性的框架对现有方法进行全面检讨，该综述着重于借助基础模型解决Vision-and-Language Navigation（VLN）领域的挑战，以及探索未来机遇和潜在角色。我们希望通过深入讨论提供有价值的资源和见解，不仅能够记录进展并探索基础模型在该领域中的机遇，而且能够对VLN中的不同挑战和解决方案进行分类整理，为基础模型研究人员提供帮助。

Jul, 2024