诊断视觉语言导航中存在的环境偏差

IJCAIMay, 2020

诊断视觉语言导航中存在的环境偏差

Diagnosing the Environment Bias in Vision-and-Language Navigation

Yubo Zhang, Hao Tan, Mohit Bansal

TL;DR本文旨在通过重新划分环境和特征替换的实验，探讨 Vision-and-Language Navigation 模型中的环境偏差问题。我们发现，ResNet 特征所传递的底层视觉外观直接影响了代理模型，进而导致环境偏差问题。根据这一发现，我们探索了几种包含较少底层视觉信息的语义表示形式，从而使使用这些特征的代理能够更好地推广到未见过的测试环境中。我们的探索性语义特征无需修改基线代理模型及其训练方式，在多个数据集上显著降低了已看和未见之间的性能差距，并取得了与先前的最先进模型具有竞争力的未见结果。

Abstract

vision-and-language navigation (VLN) requires an agent to follow natural-language instructions, explore the given environments, and reach the desired target locations. These step-by-step navigational instructions are crucial when the agent is navigating new environments about which it

vision-and-language navigation agent model environment bias semantic representations resnet features

发现论文，激发创造

诊断视觉语言导航：真正重要的事情

本文研究了视觉与语言导航的多模态任务，通过一系列诊断实验揭示不同类型的导航智能体的注意力焦点和跨模态理解能力，发现 Transformer 模型相对其他模型更具有对物体的跨模态理解能力，同时对于模型声称的跨模态对齐方式存在质疑。

Mar, 2021

分析视觉和语言导航在未知的室外区域中的泛化能力

本研究探讨了在室外场景中，视觉代理如何跨越未知地形实现指令导航，发现与室内情况相比，图形化表达方式对室外导航具有更大的影响，因此未来的研究需关注在不同地形环境中的规模和多样性增长。

Mar, 2022

视觉语言导航的多模态判别模型

本论文提出了一种使用多模态对齐的鉴别器来评估视觉和语言导航任务中的自然语言指令，以及通过预训练组件暖启动 VLN 代理以改善其在以前看不见的环境中的表现的方法。

May, 2019

具有随机环境混合的视觉语言导航

本文介绍了一种名为随机环境混合 (Random Environmental Mixup, REM) 的数据增广方法，其通过互换环境中的重要点来生成交叉的房屋场景并产生增广数据，从而帮助代理减少视角偏差的问题，提高了视觉语言导航任务的性能表现，并刷新了标准 VLN 基准数据集的最佳性能记录。

Jun, 2021

基于图形的连续环境中视觉语言导航的环境表征

本研究介绍了一种基于环境表示图（ERG）的跨模式注意力导航模型来解决语言说明与环境之间的联系问题，并在 VLN-CE 任务的成功率方面表现出令人满意的表现。

Jan, 2023

视觉语言导航智能体的行为分析

为了成功，视觉语言导航（VLN）代理人必须能够根据周围环境将指令与行动联系起来。本研究开发了一种研究基于技能的代理人行为的方法，检查现有代理人在停止、转向和移动向指定对象或房间方面如何准确地进行指令的实施。我们的方法基于生成针对不同技能的干预措施，并测量代理人预测的变化。我们展示了一个详细的案例研究，分析了最新代理人的行为，然后比较了多个代理人在技能特定的能力评分方面。这种分析表明，训练中的偏见对代理人的行为具有持久影响，并且现有的模型能够建立简单的指称表达式。我们在模型之间的比较中发现，技能特定的评分与整体 VLN 任务表现的改进相关。

Jul, 2023

视觉语言导航的体积环境表示

基于视觉观察和自然语言指令，本论文提出了一种基于体素化环境表示的视觉语言导航模型，在多任务学习的影响下，预测 3D 占用、3D 房间布局和 3D 边界框，并通过在线采集的环境表示进行体积状态估计和建立序列记忆，取得了在 VLN 基准测试（R2R，REVERIE 和 R4R）上最先进的性能。

Mar, 2024

通过语义更丰富的指令来弥补 VLN 中的视觉差距

本文介绍了数据扩充方法以改善现有的人工智能模型在 VLN 任务中性能表现不佳的问题，该方法利用了 Matterport3D 数据集中的元数据信息来引导新的导航指令的生成，并在未见过的环境中使性能提高了 8%。

Oct, 2022

自然语言基础下跨环境多任务学习导航

本研究提出从视觉语言导航和对话历史导航两个任务中学习的多任务导航模型，同时还探索了一种用于导航策略的环境无关表示法，并证明环境无关多任务学习可以显著降低在未见过环境上的性能差距。

Mar, 2020

持续视觉与语言导航

以连续学习为基础，提出了视觉语言导航的连续学习范式，通过重新组织已有的导航数据集，提出了 CVLN-I 和 CVLN-D 两个用于训练和评估 CVLN 代理的数据集，进一步提出了 Perplexity Replay (PerpR) 和 Episodic Self-Replay (ESR) 两种基于回放的新方法，通过广泛实验验证了所提方法的有效性。

Mar, 2024