通过语义更丰富的指令来弥补 VLN 中的视觉差距

ECCVOct, 2022

通过语义更丰富的指令来弥补 VLN 中的视觉差距

Bridging the visual gap in VLN via semantically richer instructions

Joaquin Ossandón, Benjamin Earle, Álvaro Soto

TL;DR本文介绍了数据扩充方法以改善现有的人工智能模型在 VLN 任务中性能表现不佳的问题，该方法利用了 Matterport3D 数据集中的元数据信息来引导新的导航指令的生成，并在未见过的环境中使性能提高了 8%。

Abstract

The Visual-and-Language Navigation (VLN) task requires understanding a textual instruction to navigate a natural indoor environment using only visual information. While this is a trivial task for most humans, it is still an open problem for →

visual-and-language navigation (vln)ai models data augmentation textual instruction matterport3d dataset

发现论文，激发创造

VLN-Video：利用行车视频进行户外视觉语言导航

提出了 VLN-Video 方法来改善室外视觉与语言导航的性能，利用驾驶视频中多个城市的多样化室外环境和自动生成的导航指令和行动，通过结合传统直觉方法和现代深度学习技术进行预训练和微调，实现了在 Touchdown 数据集上 2.1％的任务完成率的显著提升，达到了最新的技术水平。

Feb, 2024

视觉语言导航的多模态判别模型

本论文提出了一种使用多模态对齐的鉴别器来评估视觉和语言导航任务中的自然语言指令，以及通过预训练组件暖启动 VLN 代理以改善其在以前看不见的环境中的表现的方法。

May, 2019

在无标注三维环境中学习视觉语言导航

本研究提出通过使用 900 个未标记的 3D 建筑从 HM3D 中自动创建 VLN 数据集，并通过预训练的语言模型对数据集进行微调，从而解决 VLN 方法中的数据稀缺性问题，从而大幅提高 VLN 模型的泛化能力。实验表明该方法在 REVERIE 和 SOON 数据集验证数据集上提高了 7.1% 和 8.1% 的 SPL 性能，取得了良好效果。

Aug, 2022

视觉语言导航的主动信息收集

该研究提出了一种基于人类导航行为的智能视觉语言导航策略，通过赋予代理人主动信息收集能力和学习探索策略来解决当前方法产生的不确定性问题和效率低下问题，实验证明该方法能显著提高导航性能。

Jul, 2020

为什么只用文本：用多模态提示增强视觉与语言导航

Vision-and-Language Navigation with Multi-modal Prompts (VLN-MP) integrates natural language and images in instructions, showing improved navigation performance through the use of multi-modal and visual prompts.

Jun, 2024

通过生成未来视角图像语义来提升视觉 - 语言导航能力

该研究旨在探讨智能体是否可以在导航的同时生成未来视图的语义，并通过三个代理任务和一项辅助损失来教授模型实现该目的；实验表明这种能力使智能体的性能得到了提升，并且学习如何预测未来视图语义使智能体对于长路径的表现更好。

Apr, 2023

诊断视觉语言导航：真正重要的事情

本文研究了视觉与语言导航的多模态任务，通过一系列诊断实验揭示不同类型的导航智能体的注意力焦点和跨模态理解能力，发现 Transformer 模型相对其他模型更具有对物体的跨模态理解能力，同时对于模型声称的跨模态对齐方式存在质疑。

Mar, 2021

分析视觉和语言导航在未知的室外区域中的泛化能力

本研究探讨了在室外场景中，视觉代理如何跨越未知地形实现指令导航，发现与室内情况相比，图形化表达方式对室外导航具有更大的影响，因此未来的研究需关注在不同地形环境中的规模和多样性增长。

Mar, 2022

从网络上图像文本对入手，提升视觉语言导航能力

本文提出了 VLN-BERT 模型，使用从网页中收集的图像 - 文本对进行预训练，将其与具有相似领域的含路径语言训练数据相结合，取得了 4 个百分点的成功率提升，并得出每个阶段都非常有效，结合后具有更进一步的协同作用。

Apr, 2020

从 YouTube 视频中学习视觉与语言导航

通过利用大规模的房屋导览视频数据集，本文提出了一种视觉语言导航方法，使用自动构建的路径指令对训练的代理进行预训练，并利用视频中的布局信息来提高导航的泛化性能。通过实验结果表明，该方法在两个流行的基准测试（R2R 和 REVERIE）上取得了最先进的性能。

Jul, 2023