May, 2023

CLIP-VG: 利用伪语言标签自适应的 CLIP 自适应自学课程对视觉 grounding

TL;DR本文提出了一种基于 CLIP-VG 的自我学习课程适应方法,通过利用伪语言标签来解决 VG 问题,以达到隐式知识利用和去噪。研究结果表明,该方法在单源和多源情况下都远优于现有的最先进的无监督 VG 方法 Pseudo-Q,甚至优于现有的弱监督方法。