通过句法信息改善视觉语言导航中的跨模态对齐

ACLApr, 2021

通过句法信息改善视觉语言导航中的跨模态对齐

Improving Cross-Modal Alignment in Vision Language Navigation via Syntactic Information

Jialu Li, Hao Tan, Mohit Bansal

TL;DR本文提出了一种新的导航代理程序，利用依赖树派生的句法信息增强指令和当前视觉场景之间的对齐，显著提高了在 Room-to-Room 数据集上的性能，同时在 Room-Across-Room 数据集上取得了新的最高性能水平。

Abstract

vision language navigation is the task that requires an agent to navigate through a 3D environment based on natural language instructions. One key challenge in this task is to ground instructions with the current visual information that the agent perceives. Most of the existing work em

vision language navigation soft attention syntax information dependency tree room-to-room dataset

发现论文，激发创造

视觉语言导航：在实际环境中解释基于视觉的导航指令

通过视觉和语言方法的应用，本文提出了一个以真实影像为基础的强化学习环境 Matterport3D Simulator，为现实建筑物的自然语言导航问题提供了第一个基准测试数据集 Room-to-Room (R2R) dataset。

Nov, 2017

通过语义更丰富的指令来弥补 VLN 中的视觉差距

本文介绍了数据扩充方法以改善现有的人工智能模型在 VLN 任务中性能表现不佳的问题，该方法利用了 Matterport3D 数据集中的元数据信息来引导新的导航指令的生成，并在未见过的环境中使性能提高了 8%。

Oct, 2022

诊断视觉语言导航：真正重要的事情

本文研究了视觉与语言导航的多模态任务，通过一系列诊断实验揭示不同类型的导航智能体的注意力焦点和跨模态理解能力，发现 Transformer 模型相对其他模型更具有对物体的跨模态理解能力，同时对于模型声称的跨模态对齐方式存在质疑。

Mar, 2021

新路径：使用合成指令和模仿学习扩展视觉语言导航

利用 360 度全景数据生成的合成语音引导大型模拟数据集，使用模仿学习的简单 Transformer 模型，本文介绍了一种新的方式 —— 合成指令及大规模模仿学习来提高代理程序。

Oct, 2022

通过生成未来视角图像语义来提升视觉 - 语言导航能力

该研究旨在探讨智能体是否可以在导航的同时生成未来视图的语义，并通过三个代理任务和一项辅助损失来教授模型实现该目的；实验表明这种能力使智能体的性能得到了提升，并且学习如何预测未来视图语义使智能体对于长路径的表现更好。

Apr, 2023

用于视觉与语言导航的说话者 - 跟随者模型

本研究提出了一种使用内置语音模型的视觉 - 语言导航方法，该方法利用演讲者模型来合成新的指令进行数据增强，并实现了实用推理和全景动作空间，大大提高了基线指令跟随者的性能，在标准基准测试中成功率超过现有最佳方法的两倍。

Jun, 2018

LOViS: 为视觉语言导航学习方向和视觉信号

本文设计了一种具有显式方向和视觉模块的神经代理，通过特定的预训练任务，强化代理的空间推理和视觉感知，在 Room2room 和 Room4room 数据集上均取得了最先进的结果。

Sep, 2022

DELAN: 视觉与语言导航的双层对齐：跨模态对比学习

通过交叉模态对比学习，我们提出了一个名为 Dual-levEL AligNment (DELAN) 的框架，用于在融合之前对齐各种与导航相关的模态，从而增强交叉模态交互和决策制定。我们的方法与现有模型无缝集成，显著提高了各种 Vision-and-Language navigation 审查的导航性能。

Apr, 2024

从网络上图像文本对入手，提升视觉语言导航能力

本文提出了 VLN-BERT 模型，使用从网页中收集的图像 - 文本对进行预训练，将其与具有相似领域的含路径语言训练数据相结合，取得了 4 个百分点的成功率提升，并得出每个阶段都非常有效，结合后具有更进一步的协同作用。

Apr, 2020

右边” 在哪儿？：揭示视觉语言导航模型的限制

通过一系列的简单遮盖实验，揭示了某些高性能模型仅依赖于指令的名词标记，并提出了两种训练方法来缓解这个问题。

Nov, 2023