从地标生成基础导航说明: 少即是多

Nov, 2021

从地标生成基础导航说明: 少即是多

Less is More: Generating Grounded Navigation Instructions from Landmarks

Su Wang, Ceslee Montgomery, Jordi Orbay, Vighnesh Birodkar, Aleksandra Faust...

TL;DR本篇论文主要研究利用360度图像生成室内路线的导航指令，通过提取关键地标并用多语言图像-文本编码器进行泛化训练，在英语、印地语和特鲁古语语言环境下，MARKY-MT5系统可以提供与人类导航指令75%相近的娴熟指导，显示出较高的性能和应用价值。

Abstract

We study the automatic generation of navigation instructions from 360-degree images captured on indoor routes. Existing generators suffer

发现论文，激发创造

多模态图文导航中的视觉语言联系

研究通过不同的模态，将指示性的语言指令用于虚拟环境导航中，发现使用不同模态对于所使用的 VLN 模型产生不同的影响，并提出使用专家模型集成不同模态信息以提高模型性能。

Jun, 2019

Room-Across-Room: 多语言视觉语言导航与稠密的时空基础

介绍了 Room-Across-Room（RxR），这是一个新的视觉语言导航（VLN）数据集,它是一个多语言（英语，印地语和泰卢固语）的数据集,强调语言在VLN中的作用，解决了路径中已知的偏差，并更多地引用可见实体。RxR的规模和细节大大扩展了对仿真的体现性语言代理的研究。

Oct, 2020

从地图生成地标导航指南的图文问题

本文提出了一种基于神经模型和OpenStreetMap数据的人工导航模型，能够生成包含物理地标的自然语言导航指令，评估表明该模型的导航指令具备与人类指令类似的特征，可成功指引行人在Street View进行导航。

Dec, 2020

SOAT: 一种面向场景和对象感知的视觉语言导航变换器

本论文提出了一个基于transformer的视觉与语言导航（VLN）代理，使用两种不同的视觉编码器，即场景分类网络和对象检测器，它们能匹配这两种不同类型的视觉提示，进而通过视觉和语言的预训练实现通向Room-to-Room（R2R）和Room-Across-Room（RxR）存在显著改进的效果。

Oct, 2021

用跨语言、环境无关的表征改进视觉语言导航

该研究提出了CLEAR（跨语言和环境无关表示）方法，通过学习跨语言和环境无关的引导方法，解决了Vision-and-Language Navigation任务中的难题，并在Room-Across-Room数据集中证明了该方法的有效性。

Jul, 2022

新路径：使用合成指令和模仿学习扩展视觉语言导航

利用360度全景数据生成的合成语音引导大型模拟数据集，使用模仿学习的简单Transformer模型，本文介绍了一种新的方式——合成指令及大规模模仿学习来提高代理程序。

Oct, 2022

通过语义更丰富的指令来弥补VLN中的视觉差距

本文介绍了数据扩充方法以改善现有的人工智能模型在VLN任务中性能表现不佳的问题，该方法利用了Matterport3D数据集中的元数据信息来引导新的导航指令的生成，并在未见过的环境中使性能提高了8%。

Oct, 2022

基于地点实体的自适应预训练技术用于视觉与语言导航

我们提出了一种新颖的基于实体-地标适应的预训练模型(GELA)，用于实现细粒度的视听导航中不同模态信号的对齐。采用三个适应性预训练目标：实体短语预测，地标边界框预测和实体-地标语义一致性，该模型在两个任务中实现了最先进的结果，证明了其有效性和普适性。

Aug, 2023

基于语义地图的导航指令生成

我们提出了一种使用语义地图作为视觉输入的图像字幕任务的导航指令生成新方法，并发布了使用语义地图的指令生成基准数据集和初步模型。

Mar, 2024

通过大型模型进行视觉语言导航中的可纠正的地标发现

Vision-Language Navigation (VLN) requires the agent to align landmarks based on instruction and visual observations. This paper proposes CONSOLE, a new paradigm that treats VLN as an open-world landmark discovery problem, utilizing large models ChatGPT and CLIP for accurate alignment and observation enhancement to achieve state-of-the-art results on multiple VLN benchmarks.

May, 2024