预期视觉语言导航中未知差异

Sep, 2022

Anticipating the Unseen Discrepancy for Vision and Language Navigation

Yujie Lu, Huiliang Zhang, Ping Nie, Weixi Feng, Wenda Xu...

TL;DR本文提出了一种 Unseen Discrepancy Anticipating Vision and Language Navigation (DAVIS) 的方法，该方法通过鼓励测试时间视觉一致性来学习到在看不见的环境下泛化。DAVIS 利用了相似语义观察的视觉一致性信号和两阶段学习过程来鼓励测试时间的适应，并基于强化学习与 Momentum Contrast 组合的混合模式来加强基本的模仿学习。在 R2R 和 RxR 数据集上的广泛实验表明，DAVIS 在视觉语言导航中取得了模型无关的最新进展。

Abstract

vision-language navigation requires the agent to follow natural language instructions to reach a specific target. The large discrepancy between seen and unseen environments makes it challenging for the agent to g

vision-language navigation data augmentation unseen environments generalization test-time visual consistency

发现论文，激发创造

分析视觉和语言导航在未知的室外区域中的泛化能力

本研究探讨了在室外场景中，视觉代理如何跨越未知地形实现指令导航，发现与室内情况相比，图形化表达方式对室外导航具有更大的影响，因此未来的研究需关注在不同地形环境中的规模和多样性增长。

Mar, 2022

视觉语言导航的多模态判别模型

本论文提出了一种使用多模态对齐的鉴别器来评估视觉和语言导航任务中的自然语言指令，以及通过预训练组件暖启动 VLN 代理以改善其在以前看不见的环境中的表现的方法。

May, 2019

诊断视觉语言导航中存在的环境偏差

本文旨在通过重新划分环境和特征替换的实验，探讨 Vision-and-Language Navigation 模型中的环境偏差问题。我们发现，ResNet 特征所传递的底层视觉外观直接影响了代理模型，进而导致环境偏差问题。根据这一发现，我们探索了几种包含较少底层视觉信息的语义表示形式，从而使使用这些特征的代理能够更好地推广到未见过的测试环境中。我们的探索性语义特征无需修改基线代理模型及其训练方式，在多个数据集上显著降低了已看和未见之间的性能差距，并取得了与先前的最先进模型具有竞争力的未见结果。

May, 2020

视觉与语言导航中的数据生成扩展

通过构建大规模数据集，研究了语言引导的视觉导航中各个组成部分对代理性能的影响，并通过简单模仿学习将现有代理的性能推向了一个显著的新高度，成功率达到了 80％，并将在已见和未见环境中导航的泛化差距降低到不到 1％。

Jul, 2023

自然语言基础下跨环境多任务学习导航

本研究提出从视觉语言导航和对话历史导航两个任务中学习的多任务导航模型，同时还探索了一种用于导航策略的环境无关表示法，并证明环境无关多任务学习可以显著降低在未见过环境上的性能差距。

Mar, 2020

具有随机环境混合的视觉语言导航

本文介绍了一种名为随机环境混合 (Random Environmental Mixup, REM) 的数据增广方法，其通过互换环境中的重要点来生成交叉的房屋场景并产生增广数据，从而帮助代理减少视角偏差的问题，提高了视觉语言导航任务的性能表现，并刷新了标准 VLN 基准数据集的最佳性能记录。

Jun, 2021

在无标注三维环境中学习视觉语言导航

本研究提出通过使用 900 个未标记的 3D 建筑从 HM3D 中自动创建 VLN 数据集，并通过预训练的语言模型对数据集进行微调，从而解决 VLN 方法中的数据稀缺性问题，从而大幅提高 VLN 模型的泛化能力。实验表明该方法在 REVERIE 和 SOON 数据集验证数据集上提高了 7.1% 和 8.1% 的 SPL 性能，取得了良好效果。

Aug, 2022

DELAN: 视觉与语言导航的双层对齐：跨模态对比学习

通过交叉模态对比学习，我们提出了一个名为 Dual-levEL AligNment (DELAN) 的框架，用于在融合之前对齐各种与导航相关的模态，从而增强交叉模态交互和决策制定。我们的方法与现有模型无缝集成，显著提高了各种 Vision-and-Language navigation 审查的导航性能。

Apr, 2024

新路径：使用合成指令和模仿学习扩展视觉语言导航

利用 360 度全景数据生成的合成语音引导大型模拟数据集，使用模仿学习的简单 Transformer 模型，本文介绍了一种新的方式 —— 合成指令及大规模模仿学习来提高代理程序。

Oct, 2022

持续视觉与语言导航

以连续学习为基础，提出了视觉语言导航的连续学习范式，通过重新组织已有的导航数据集，提出了 CVLN-I 和 CVLN-D 两个用于训练和评估 CVLN 代理的数据集，进一步提出了 Perplexity Replay (PerpR) 和 Episodic Self-Replay (ESR) 两种基于回放的新方法，通过广泛实验验证了所提方法的有效性。

Mar, 2024