通过大型模型进行视觉语言导航中的可纠正的地标发现

May, 2024

通过大型模型进行视觉语言导航中的可纠正的地标发现

Correctable Landmark Discovery via Large Models for Vision-Language Navigation

Bingqian Lin, Yunshuang Nie, Ziming Wei, Yi Zhu, Hang Xu...

TL;DRVision-Language Navigation (VLN) requires the agent to align landmarks based on instruction and visual observations. This paper proposes CONSOLE, a new paradigm that treats VLN as an open-world landmark discovery problem, utilizing large models ChatGPT and CLIP for accurate alignment and observation enhancement to achieve state-of-the-art results on multiple VLN benchmarks.

Abstract

vision-language navigation (VLN) requires the agent to follow language instructions to reach a target position. A key factor for successful navigation is to align the landmarks implied in the instruction with diverse visual observations. However, previous VLN agents fail to perform acc

vision-language navigation console landmark discovery alignment observation enhancement

发现论文，激发创造

VLN-Trans: 视觉语言导航代理翻译器

通过设计一个翻译模块，将原有语句转化为易于理解的子语句，该模块针对航行代理的视觉能力和环境观察结果，聚焦于可识别和有区分性的地标，通过训练翻译器和导航代理的特定任务，达到了在多个基准测试中取得最新颖成果的目标。

Feb, 2023

在无标注三维环境中学习视觉语言导航

本研究提出通过使用 900 个未标记的 3D 建筑从 HM3D 中自动创建 VLN 数据集，并通过预训练的语言模型对数据集进行微调，从而解决 VLN 方法中的数据稀缺性问题，从而大幅提高 VLN 模型的泛化能力。实验表明该方法在 REVERIE 和 SOON 数据集验证数据集上提高了 7.1% 和 8.1% 的 SPL 性能，取得了良好效果。

Aug, 2022

NavCoT: 基于学习的解耦推理，提升基于 LLM 的视觉与语言导航

通过构建导航思维链（NavCoT）进行领域内训练的新策略，提高了基于大型语言模型（LLM）的自主导航决策性能以减少领域差距。NavCoT 相对于直接行动预测的变体在各种训练设置和流行的视听导航基准上表现明显优越，并通过简单的参数微调在 R2R 数据集上实现了约 7％的相对改进。该方法将帮助开发更适应任务且可扩展的基于 LLM 的真实世界机器人应用。

Mar, 2024

MC-GPT: 通过记忆地图和推理链增强视觉与语言导航能力

在视觉语言导航（VLN）任务中，代理器需要按照自然语言指令导航到目的地。本文提出了一套方法来解决现有大型语言模型在构建记忆和导航策略多样性方面面临的问题，通过维护一个包含导航历史、视点、物体及它们的空间关系的拓扑地图来增强导航能力，并通过引入导航思维链模块富化导航策略多样性，最终通过整合感知和动作预测模块建立了一个能提高大型语言模型导航能力和解释性的流水线。实验证明，该方法有效地增强了大型语言模型的导航能力并提高了导航推理的可解释性。

May, 2024

持续视觉与语言导航

以连续学习为基础，提出了视觉语言导航的连续学习范式，通过重新组织已有的导航数据集，提出了 CVLN-I 和 CVLN-D 两个用于训练和评估 CVLN 代理的数据集，进一步提出了 Perplexity Replay (PerpR) 和 Episodic Self-Replay (ESR) 两种基于回放的新方法，通过广泛实验验证了所提方法的有效性。

Mar, 2024

从 YouTube 视频中学习视觉与语言导航

通过利用大规模的房屋导览视频数据集，本文提出了一种视觉语言导航方法，使用自动构建的路径指令对训练的代理进行预训练，并利用视频中的布局信息来提高导航的泛化性能。通过实验结果表明，该方法在两个流行的基准测试（R2R 和 REVERIE）上取得了最先进的性能。

Jul, 2023

基于提示的环境自主探索的视觉语言导航预训练

本文提出了一种基于 Prompt 的自我探索方法，通过对环境进行采样来自动生成结构化的指导，从而构建了一个无需人工标注的本地数据集，并引入基于 Prompt 的学习来提高语言嵌入的学习效率，进而大大提高了视觉 - 语言导航模型的泛化能力。

Mar, 2022

多模态大型语言模型用于视觉导航

通过简单的文本提示、当前观察和历史收集模型，我们的方法在视觉导航中对大型语言模型进行了精细调优，训练模型使用了来自 Habitat-Matterport 3D 数据集（HM3D）的人类示范和碰撞信号，实验结果表明我们的方法优于最先进的行为克隆方法并有效地降低了碰撞率。

Oct, 2023

移动之前进行讨论：通过多专家讨论进行视觉语言导航

通过与专家的讨论，我们引入了一种新的零射击视觉语言导航框架，命名为 DiscussNav，能够有效地增强导航性能。

Sep, 2023

一个考虑地标的视觉导航数据集

通过专家演示学习的地图表示已经显示出很大的研究价值。然而，由于缺乏真实世界中的人类数据集以有效监督环境学习的可视化导航领域近期发展面临挑战。我们提出了一个地标感知的视觉导航（LAVN）数据集，以便进行人类中心探索策略和地图构建的监督学习。我们收集了 RGB 观测和人类点击配对，人类标注者在虚拟和真实环境中进行探索，并以全覆盖探索空间为目标。人类标注者还提供了每个轨迹上的不同地标示例，我们直观地认为这将简化地图或图的构建和定位任务。当学习在环境中进行探索时，这些人类点击作为路径点的直接监督。我们的数据集涵盖了广泛的场景，包括室内环境中的房间和室外的走道。数据集可在 DOI：10.5281/zenodo.10608067 上获得。

Feb, 2024