跨语种视觉 - 语言导航 | BriefGPT

Oct, 2019

跨语种视觉 - 语言导航

Cross-Lingual Vision-Language Navigation

An Yan, Xin Eric Wang, Jiangtao Feng, Lei Li, William Yang Wang

TL;DR该研究基于新增的汉语指令，研究了即使在零样本学习的情况下，使用现有的英语指令进行训练的代理人如何有效地导航，并显示了竞争结果。

Abstract

Commanding a robot to navigate with natural language instructions is a long-term goal for grounded language understanding and robotics. Bu

natural language instructions grounded language understanding robotics bilingual dataset zero-shot learning

发现论文，激发创造

视觉语言导航：在实际环境中解释基于视觉的导航指令

通过视觉和语言方法的应用，本文提出了一个以真实影像为基础的强化学习环境 Matterport3D Simulator，为现实建筑物的自然语言导航问题提供了第一个基准测试数据集 Room-to-Room (R2R) dataset。

Nov, 2017

可访问的指令跟随代理

UVLN (Universal Vision-Language Navigation) 是一种新颖的增强型机器翻译指令框架，利用大型语言模型（GPT3）和图像标题模型（BLIP）的新颖组合，将传统的指令跟随代理推广到多语言和低资源语言等复杂领域，将不同语言之间的对齐通过跨模态变压器，对语言指令、视觉观察和动作决策序列进行编码、捕获和传递。

May, 2023

视觉语言导航中可转移的表征学习

我们的方法将预先训练的视觉和语言表示技术适应于相关领域的任务，通过在跨模态序列对齐和序列一致性任务中适应这些表示技术，从而提高了在 Room-to-Room（R2R）带权路径成功率（SPL）度量方面的性能。

Aug, 2019

Room-Across-Room: 多语言视觉语言导航与稠密的时空基础

介绍了 Room-Across-Room（RxR），这是一个新的视觉语言导航（VLN）数据集，它是一个多语言（英语，印地语和泰卢固语）的数据集，强调语言在 VLN 中的作用，解决了路径中已知的偏差，并更多地引用可见实体。RxR 的规模和细节大大扩展了对仿真的体现性语言代理的研究。

Oct, 2020

迭代式视觉语言导航

本研究提出了一种名为 IVLN（迭代视觉语言导航）的新范例用于评估自然语言引导的智能体在具有持久环境的不同场景中的导航表现。

Oct, 2022

新路径：使用合成指令和模仿学习扩展视觉语言导航

利用 360 度全景数据生成的合成语音引导大型模拟数据集，使用模仿学习的简单 Transformer 模型，本文介绍了一种新的方式 —— 合成指令及大规模模仿学习来提高代理程序。

Oct, 2022

诊断视觉语言导航：真正重要的事情

本文研究了视觉与语言导航的多模态任务，通过一系列诊断实验揭示不同类型的导航智能体的注意力焦点和跨模态理解能力，发现 Transformer 模型相对其他模型更具有对物体的跨模态理解能力，同时对于模型声称的跨模态对齐方式存在质疑。

Mar, 2021

右边” 在哪儿？：揭示视觉语言导航模型的限制

通过一系列的简单遮盖实验，揭示了某些高性能模型仅依赖于指令的名词标记，并提出了两种训练方法来缓解这个问题。

Nov, 2023

沿着路径前进：视觉语言导航中的指令准确度

通过对 Room-to-Room 数据集的评估提出新的评价指标 CLS，并且创建了新数据集 Room-for-Room (R4R) 用于指导指令跟踪的任务，同时通过比较与基准系统，表明重视指令的代理程序优于重视目标完成的代理程序。

May, 2019

视觉与语言导航：任务、方法和未来发展综述

本文综述了 Vision-and-Language Navigation（VLN）这一领域的现有研究，包括任务、评价指标、方法等，并通过结构化分析当前进展和挑战，强调了当前 VLN 的局限性和未来工作的机遇，是 VLN 研究社区的详尽参考。

Mar, 2022