诊断视觉语言导航：真正重要的事情

ACLMar, 2021

诊断视觉语言导航：真正重要的事情

Diagnosing Vision-and-Language Navigation: What Really Matters

Wanrong Zhu, Yuankai Qi, Pradyumna Narayana, Kazoo Sone, Sugato Basu...

TL;DR本文研究了视觉与语言导航的多模态任务，通过一系列诊断实验揭示不同类型的导航智能体的注意力焦点和跨模态理解能力，发现 Transformer 模型相对其他模型更具有对物体的跨模态理解能力，同时对于模型声称的跨模态对齐方式存在质疑。

Abstract

vision-and-language navigation (VLN) is a multimodal task where an agent follows natural language instructions and navigates in visual environments. Multiple setups have been proposed, and researchers apply new m

vision-and-language navigation multimodal task navigation performance diagnostic experiments transformer-based agents

发现论文，激发创造

视觉语言导航的多模态判别模型

本论文提出了一种使用多模态对齐的鉴别器来评估视觉和语言导航任务中的自然语言指令，以及通过预训练组件暖启动 VLN 代理以改善其在以前看不见的环境中的表现的方法。

May, 2019

视觉与语言导航：任务、方法和未来发展综述

本文综述了 Vision-and-Language Navigation（VLN）这一领域的现有研究，包括任务、评价指标、方法等，并通过结构化分析当前进展和挑战，强调了当前 VLN 的局限性和未来工作的机遇，是 VLN 研究社区的详尽参考。

Mar, 2022

视觉语言导航的主动信息收集

该研究提出了一种基于人类导航行为的智能视觉语言导航策略，通过赋予代理人主动信息收集能力和学习探索策略来解决当前方法产生的不确定性问题和效率低下问题，实验证明该方法能显著提高导航性能。

Jul, 2020

右边” 在哪儿？：揭示视觉语言导航模型的限制

通过一系列的简单遮盖实验，揭示了某些高性能模型仅依赖于指令的名词标记，并提出了两种训练方法来缓解这个问题。

Nov, 2023

视觉语言导航智能体的行为分析

为了成功，视觉语言导航（VLN）代理人必须能够根据周围环境将指令与行动联系起来。本研究开发了一种研究基于技能的代理人行为的方法，检查现有代理人在停止、转向和移动向指定对象或房间方面如何准确地进行指令的实施。我们的方法基于生成针对不同技能的干预措施，并测量代理人预测的变化。我们展示了一个详细的案例研究，分析了最新代理人的行为，然后比较了多个代理人在技能特定的能力评分方面。这种分析表明，训练中的偏见对代理人的行为具有持久影响，并且现有的模型能够建立简单的指称表达式。我们在模型之间的比较中发现，技能特定的评分与整体 VLN 任务表现的改进相关。

Jul, 2023

分析视觉和语言导航在未知的室外区域中的泛化能力

本研究探讨了在室外场景中，视觉代理如何跨越未知地形实现指令导航，发现与室内情况相比，图形化表达方式对室外导航具有更大的影响，因此未来的研究需关注在不同地形环境中的规模和多样性增长。

Mar, 2022

诊断视觉语言导航中存在的环境偏差

本文旨在通过重新划分环境和特征替换的实验，探讨 Vision-and-Language Navigation 模型中的环境偏差问题。我们发现，ResNet 特征所传递的底层视觉外观直接影响了代理模型，进而导致环境偏差问题。根据这一发现，我们探索了几种包含较少底层视觉信息的语义表示形式，从而使使用这些特征的代理能够更好地推广到未见过的测试环境中。我们的探索性语义特征无需修改基线代理模型及其训练方式，在多个数据集上显著降低了已看和未见之间的性能差距，并取得了与先前的最先进模型具有竞争力的未见结果。

May, 2020

WebVLN：基于视觉和语言的网站导航

该研究提出了一项名为 WebVLN 的新任务，利用问答形式的指令训练代理程序，模拟用户在网页上浏览的过程。与现有的 Vision-and-Language Navigation 任务相比，WebVLN 代理程序进一步考虑 HTML 等网页特定内容，通过构建在最先进的 VLN 技术基础之上的 WebVLN-Net 方法，在 VLN 和网页导航方法上取得了更好的表现。该研究的贡献在于创建了 WebVLN-v1 数据集，并为 VLN 领域与广泛的视觉与语言研究社区做出了新的探索。

Dec, 2023

利用自监督辅助推理任务的视觉语言导航

本文提出了一种基于自我监督的辅助推理导航（AuxRN）框架，使用四个辅助推理任务来利用语义信息，通过这些额外训练信号来帮助代理获取语义表示的知识以便进行推理，进而建立对环境的全面感知，该方法在标准基准测试中实现了最佳效果，显著优于现有的最先进方法。

Nov, 2019

为什么只用文本：用多模态提示增强视觉与语言导航

Vision-and-Language Navigation with Multi-modal Prompts (VLN-MP) integrates natural language and images in instructions, showing improved navigation performance through the use of multi-modal and visual prompts.

Jun, 2024