Dec, 2023
GroundVLP:从视觉语言预训练和开放词汇对象检测中利用零样本视觉定位
GroundVLP: Harnessing Zero-shot Visual Grounding from Vision-Language
Pre-training and Open-Vocabulary Object Detection
TL;DR通过现有的图像-文本配对模型和纯物体检测数据,我们提出了一种名为GroundVLP的简单而有效的零样本方法,该方法结合了GradCAM热力图和开放词汇检测器的对象提案,用于捕捉视觉环境并解决视觉定位任务中数据标注不足的挑战,实验结果显示该方法在RefCOCO/+/g数据集上超过了现有零样本方法的28%,并且在Flickr30k实体数据集上与一些非VLP的有监督模型表现相当甚至更好。