Mar, 2020

视觉语言导航的多视图学习

TL;DR通过利用多条不同视角的指令,共享参数,解决语义歧义和提高广义性,学习在视觉环境中遵循自然语言指令导航的新训练范式 LEarn from EveryOne (LEO) 在 R2R 基准测试数据集上比贪婪代理 (25.3%->41.4%) 提高 16% 的成功率重量化路径长度 (SPL),并且与大多数现有的视觉和语言导航模型互补,易于与现有技术集成,推动 R2R 基线提升至 62%(绝对提升 9%)的最新技术 LEO+被创造出来。