具身视觉与语言导航中的动态卷积滤波器

Jul, 2019

具身视觉与语言导航中的动态卷积滤波器

Embodied Vision-and-Language Navigation with Dynamic Convolutional Filters

Federico Landi, Lorenzo Baraldi, Massimiliano Corsini, Rita Cucchiara

TL;DR研究了在 Vision-and-Language Navigation 中，通过利用动态卷积滤波器对视觉信息和语言描述进行编码的方式，设计了一个新的策略，旨在解码为一系列低级的动作序列，与以前的方法相比，该策略在低级别行动空间中表现更佳，并尝试对近期的 VLN 工作进行了分类。

Abstract

In vision-and-language navigation (VLN), an embodied agent needs to reach a target destination with the only guidance of a natural language instruction. To explore the environment and progress towards the target

vision-and-language navigation dynamic convolutional filters low-level actions embodied agent categorization

发现论文，激发创造

具备体验智能的视觉 - 语言导航：综述

长期愿景是提高代理者和环境的感知、理解和交互能力，以实现具体导航的视觉 - 语言导航（VLN）作为实现具体导航的核心研究路径，关注代理者如何使用自然语言与人类进行有效沟通，接收和理解指令，并最终依靠视觉信息实现准确的导航。此综述系统回顾了 VLN 的研究进展并详细介绍了具体导航的研究方向，包括系统架构、基于方法的研究和常用基准数据集，全面分析了当前研究面临的问题和挑战，并探讨了该领域的未来发展方向，旨在为研究人员提供实用的参考。

Feb, 2024

视觉语言导航的多模态判别模型

本论文提出了一种使用多模态对齐的鉴别器来评估视觉和语言导航任务中的自然语言指令，以及通过预训练组件暖启动 VLN 代理以改善其在以前看不见的环境中的表现的方法。

May, 2019

层次化跨模态机器人视觉语言导航智能体

该研究论文提出了一种基于连续三维重建环境的机器人视觉和语言导航（Robo-VLN）的设定，并利用分层决策，模块化训练和分离推理和模仿的策略，成功地解决了 Robo-VLN 这一新任务。通过使用 HCM 代理，研究者展示了比现有基线效果更好的结果，为 Robo-VLN 创造了新的基准。

Apr, 2021

视觉语言导航的主动信息收集

该研究提出了一种基于人类导航行为的智能视觉语言导航策略，通过赋予代理人主动信息收集能力和学习探索策略来解决当前方法产生的不确定性问题和效率低下问题，实验证明该方法能显著提高导航性能。

Jul, 2020

低层次视觉语言导航的多模态注意力网络

本文提出了一种基于全注意力机制的低层 VLN 架构，用于实现跨多个模态的长期路径规划，其中包括自然语言、图像和代理人的低级行为控制，实验结果表明其在两个数据集上均获得了良好的性能。

Nov, 2019

持续视觉与语言导航

以连续学习为基础，提出了视觉语言导航的连续学习范式，通过重新组织已有的导航数据集，提出了 CVLN-I 和 CVLN-D 两个用于训练和评估 CVLN 代理的数据集，进一步提出了 Perplexity Replay (PerpR) 和 Episodic Self-Replay (ESR) 两种基于回放的新方法，通过广泛实验验证了所提方法的有效性。

Mar, 2024

诊断视觉语言导航：真正重要的事情

本文研究了视觉与语言导航的多模态任务，通过一系列诊断实验揭示不同类型的导航智能体的注意力焦点和跨模态理解能力，发现 Transformer 模型相对其他模型更具有对物体的跨模态理解能力，同时对于模型声称的跨模态对齐方式存在质疑。

Mar, 2021

基于视频的 VLM 为视觉与语言导航规划下一步

NaVid 是一个基于视频的大型视觉语言模型，通过动态的视频流输入，无需地图、测距仪和深度信息，实现了最先进水平的导航性能，解决了里程计噪声和模拟环境到真实环境之间的缺陷，同时有效地利用机器人的历史观察作为决策和指令遵循的时空背景，通过对 550k 个导航样本和 665k 个网络数据的训练，在模拟环境和真实世界中取得了非常好的性能，为导航代理和整个研究领域规划了下一步。

Feb, 2024

通过生成未来视角图像语义来提升视觉 - 语言导航能力

该研究旨在探讨智能体是否可以在导航的同时生成未来视图的语义，并通过三个代理任务和一项辅助损失来教授模型实现该目的；实验表明这种能力使智能体的性能得到了提升，并且学习如何预测未来视图语义使智能体对于长路径的表现更好。

Apr, 2023

VLN-Video：利用行车视频进行户外视觉语言导航

提出了 VLN-Video 方法来改善室外视觉与语言导航的性能，利用驾驶视频中多个城市的多样化室外环境和自动生成的导航指令和行动，通过结合传统直觉方法和现代深度学习技术进行预训练和微调，实现了在 Touchdown 数据集上 2.1％的任务完成率的显著提升，达到了最新的技术水平。

Feb, 2024