Sep, 2022

预期视觉语言导航中未知差异

TL;DR本文提出了一种 Unseen Discrepancy Anticipating Vision and Language Navigation (DAVIS) 的方法,该方法通过鼓励测试时间视觉一致性来学习到在看不见的环境下泛化。DAVIS 利用了相似语义观察的视觉一致性信号和两阶段学习过程来鼓励测试时间的适应,并基于强化学习与 Momentum Contrast 组合的混合模式来加强基本的模仿学习。在 R2R 和 RxR 数据集上的广泛实验表明,DAVIS 在视觉语言导航中取得了模型无关的最新进展。