ECCVAug, 2022

在无标注三维环境中学习视觉语言导航

TL;DR本研究提出通过使用 900 个未标记的 3D 建筑从 HM3D 中自动创建 VLN 数据集,并通过预训练的语言模型对数据集进行微调,从而解决 VLN 方法中的数据稀缺性问题,从而大幅提高 VLN 模型的泛化能力。实验表明该方法在 REVERIE 和 SOON 数据集验证数据集上提高了 7.1% 和 8.1% 的 SPL 性能,取得了良好效果。