右边” 在哪儿？：揭示视觉语言导航模型的限制

Nov, 2023

右边” 在哪儿？：揭示视觉语言导航模型的限制

Which way is `right'?: Uncovering limitations of Vision-and-Language Navigation model

Meera Hahn, Amit Raj, James M. Rehg

TL;DR通过一系列的简单遮盖实验，揭示了某些高性能模型仅依赖于指令的名词标记，并提出了两种训练方法来缓解这个问题。

Abstract

The challenging task of vision-and-language navigation (VLN) requires embodied agents to follow natural language instructions to reach a goal location or object (e.g. `walk down the hallway and turn left at the p

vision-and-language navigation instructions grounding spatial language directional language

发现论文，激发创造

诊断视觉语言导航：真正重要的事情

本文研究了视觉与语言导航的多模态任务，通过一系列诊断实验揭示不同类型的导航智能体的注意力焦点和跨模态理解能力，发现 Transformer 模型相对其他模型更具有对物体的跨模态理解能力，同时对于模型声称的跨模态对齐方式存在质疑。

Mar, 2021

视觉语言导航智能体的行为分析

为了成功，视觉语言导航（VLN）代理人必须能够根据周围环境将指令与行动联系起来。本研究开发了一种研究基于技能的代理人行为的方法，检查现有代理人在停止、转向和移动向指定对象或房间方面如何准确地进行指令的实施。我们的方法基于生成针对不同技能的干预措施，并测量代理人预测的变化。我们展示了一个详细的案例研究，分析了最新代理人的行为，然后比较了多个代理人在技能特定的能力评分方面。这种分析表明，训练中的偏见对代理人的行为具有持久影响，并且现有的模型能够建立简单的指称表达式。我们在模型之间的比较中发现，技能特定的评分与整体 VLN 任务表现的改进相关。

Jul, 2023

多模态图文导航中的视觉语言联系

研究通过不同的模态，将指示性的语言指令用于虚拟环境导航中，发现使用不同模态对于所使用的 VLN 模型产生不同的影响，并提出使用专家模型集成不同模态信息以提高模型性能。

Jun, 2019

连续环境下视觉语言导航的语言对齐航点（LAW）监督

本文针对视觉语言导航任务提出了一种基于自然语言的导航方法，通过一个新的衡量指标来度量环境导航中代理人遵循指令的准确度。

Sep, 2021

视觉语言导航的多模态判别模型

本论文提出了一种使用多模态对齐的鉴别器来评估视觉和语言导航任务中的自然语言指令，以及通过预训练组件暖启动 VLN 代理以改善其在以前看不见的环境中的表现的方法。

May, 2019

视觉与语言导航：任务、方法和未来发展综述

本文综述了 Vision-and-Language Navigation（VLN）这一领域的现有研究，包括任务、评价指标、方法等，并通过结构化分析当前进展和挑战，强调了当前 VLN 的局限性和未来工作的机遇，是 VLN 研究社区的详尽参考。

Mar, 2022

分析视觉和语言导航在未知的室外区域中的泛化能力

本研究探讨了在室外场景中，视觉代理如何跨越未知地形实现指令导航，发现与室内情况相比，图形化表达方式对室外导航具有更大的影响，因此未来的研究需关注在不同地形环境中的规模和多样性增长。

Mar, 2022

沿着路径前进：视觉语言导航中的指令准确度

通过对 Room-to-Room 数据集的评估提出新的评价指标 CLS，并且创建了新数据集 Room-for-Room (R4R) 用于指导指令跟踪的任务，同时通过比较与基准系统，表明重视指令的代理程序优于重视目标完成的代理程序。

May, 2019

视觉语言导航中可转移的表征学习

我们的方法将预先训练的视觉和语言表示技术适应于相关领域的任务，通过在跨模态序列对齐和序列一致性任务中适应这些表示技术，从而提高了在 Room-to-Room（R2R）带权路径成功率（SPL）度量方面的性能。

Aug, 2019

通过语义更丰富的指令来弥补 VLN 中的视觉差距

本文介绍了数据扩充方法以改善现有的人工智能模型在 VLN 任务中性能表现不佳的问题，该方法利用了 Matterport3D 数据集中的元数据信息来引导新的导航指令的生成，并在未见过的环境中使性能提高了 8%。

Oct, 2022