关键词natural language referring expressions
搜索结果 - 2
- CLIP-Nav: 使用 CLIP 进行零样本视觉与语言导航
本研究主要探讨利用 CLIP 模型在零样本情况下,通过描述目标对象的自然语言参考表达式来解决零样本视觉语言导航问题,并在 REVERIE 数据集上比较 CLIP 模型和监督学习模型的性能。结果显示,采用 CLIP 零样本方法的导航能力优于基 - ECCV指代表达中的上下文建模
本研究旨在使用更好的视觉上下文测量标准,将对象识别和自然语言表达结合起来,从而提高对象识别和自然语言表达模型的性能。在 RefCOCO、RefCOCO+ 和 RefCOCOg 三个数据集上的评估表明,我们的方法对于对象指称生成和理解都具有优