Mar, 2022
使用视觉语言模型学习开放词汇物体检测提示
Learning to Prompt for Open-Vocabulary Object Detection with
Vision-Language Model
TL;DR本文提出一种名为DetPro的新方法,以学习基于预先训练的视觉-语言模型的连续提示表示,用于开放词汇物体检测。与以前的分类为导向的方法不同,DetPro具有两个亮点:1)背景解释方案,包括图像背景中的提议进入提示训练;2)上下文分级方案,用于分离定制提示训练中的图像前景中的建议。通过将DetPro与状态-of-the-art的开放世界对象检测器ViLD组装在一起,并在LVIS以及Pascal VOC,COCO,Objects365数据集上进行实验,实验结果表明,我们的DetPro在所有设置中都优于基线ViLD,例如在LVIS的新颖类上提高了3.4 APbox和3.0 APmask。