通过预训练实现通用的视觉语言导航智能体学习

CVPRFeb, 2020

通过预训练实现通用的视觉语言导航智能体学习

Towards Learning a Generic Agent for Vision-and-Language Navigation via Pre-training

Weituo Hao, Chunyuan Li, Xiujun Li, Lawrence Carin, Jianfeng Gao

TL;DR本文提出了第一个预训练和微调范式，用于视觉语言导航 (VLN) 任务。通过自监督学习方式训练大量的图像 - 文本 - 动作三元组，预训练模型提供通用的视觉环境和语言指令表示，可以轻松地用于现有的 VLN 框架。通过在三个 VLN 任务上验证性能可行性，验证了该方法的有效性和推广性。

Abstract

Learning to navigate in a visual environment following natural-language instructions is a challenging task, because the multimodal inputs to the agent are highly variable, and the training data on a new task is often limited. In this paper, we present the first →

visual environment natural-language instructions pre-training fine-tuning vision-and-language navigation

发现论文，激发创造

具备语言预训练和随机采样的稳健导航

本文提出了两种有效方法来改善视觉和语言导航 (VLN) 挑战中的指令表示和动作解码问题，一是使用大规模预训练语言模型来学习更好的文本表示，二是提出一种随机采样方案来减小训练和测试中动作的差距，从而使智能体可以在长序列的动作解码过程中学习自我纠正，将两项技术结合，成功地在 Room-to-Room 基准测试中取得了新的最优性能，以路径长度加权的成功率指标提高了 6% 绝对值 (47%—>53%)。

Sep, 2019

Airbert：面向视觉和语言导航的领域内预训练

本研究介绍了一个大规模、多样化的 BnB VLN 数据集，并使用其进行预训练可以提高在各种 VLN 评估中的性能，特别是在挑战性的 few-shot VLN 评估上。

Aug, 2021

视觉语言导航的多模态判别模型

本论文提出了一种使用多模态对齐的鉴别器来评估视觉和语言导航任务中的自然语言指令，以及通过预训练组件暖启动 VLN 代理以改善其在以前看不见的环境中的表现的方法。

May, 2019

持续视觉与语言导航

以连续学习为基础，提出了视觉语言导航的连续学习范式，通过重新组织已有的导航数据集，提出了 CVLN-I 和 CVLN-D 两个用于训练和评估 CVLN 代理的数据集，进一步提出了 Perplexity Replay (PerpR) 和 Episodic Self-Replay (ESR) 两种基于回放的新方法，通过广泛实验验证了所提方法的有效性。

Mar, 2024

视觉语言导航中可转移的表征学习

我们的方法将预先训练的视觉和语言表示技术适应于相关领域的任务，通过在跨模态序列对齐和序列一致性任务中适应这些表示技术，从而提高了在 Room-to-Room（R2R）带权路径成功率（SPL）度量方面的性能。

Aug, 2019

基于提示的环境自主探索的视觉语言导航预训练

本文提出了一种基于 Prompt 的自我探索方法，通过对环境进行采样来自动生成结构化的指导，从而构建了一个无需人工标注的本地数据集，并引入基于 Prompt 的学习来提高语言嵌入的学习效率，进而大大提高了视觉 - 语言导航模型的泛化能力。

Mar, 2022

视觉 - 语言导航生成预训练 Transformer

在 Vision-and-Language Navigation (VLN) 领域中，我们提出了一种基于 Transformer 的生成预训练模型（VLN-GPT），通过建模轨迹序列依赖关系来增强效率，并在训练过程中采用离线预训练和在线优化的方法，性能评估表明 VLN-GPT 超越了复杂的基于编码器的模型。

May, 2024

在无标注三维环境中学习视觉语言导航

本研究提出通过使用 900 个未标记的 3D 建筑从 HM3D 中自动创建 VLN 数据集，并通过预训练的语言模型对数据集进行微调，从而解决 VLN 方法中的数据稀缺性问题，从而大幅提高 VLN 模型的泛化能力。实验表明该方法在 REVERIE 和 SOON 数据集验证数据集上提高了 7.1% 和 8.1% 的 SPL 性能，取得了良好效果。

Aug, 2022

诊断视觉语言导航：真正重要的事情

本文研究了视觉与语言导航的多模态任务，通过一系列诊断实验揭示不同类型的导航智能体的注意力焦点和跨模态理解能力，发现 Transformer 模型相对其他模型更具有对物体的跨模态理解能力，同时对于模型声称的跨模态对齐方式存在质疑。

Mar, 2021

从 YouTube 视频中学习视觉与语言导航

通过利用大规模的房屋导览视频数据集，本文提出了一种视觉语言导航方法，使用自动构建的路径指令对训练的代理进行预训练，并利用视频中的布局信息来提高导航的泛化性能。通过实验结果表明，该方法在两个流行的基准测试（R2R 和 REVERIE）上取得了最先进的性能。

Jul, 2023