Nov, 2022

CLIP-Nav: 使用 CLIP 进行零样本视觉与语言导航

TL;DR本研究主要探讨利用 CLIP 模型在零样本情况下,通过描述目标对象的自然语言参考表达式来解决零样本视觉语言导航问题,并在 REVERIE 数据集上比较 CLIP 模型和监督学习模型的性能。结果显示,采用 CLIP 零样本方法的导航能力优于基于模板的监督学习方法,并且在相对成功率(RCS)方面具有更好的泛化性能。