CVPRMar, 2022

使用视觉语言模型学习开放词汇物体检测提示

TL;DR本文提出一种名为 DetPro 的新方法,以学习基于预先训练的视觉 - 语言模型的连续提示表示,用于开放词汇物体检测。与以前的分类为导向的方法不同,DetPro 具有两个亮点:1)背景解释方案,包括图像背景中的提议进入提示训练;2)上下文分级方案,用于分离定制提示训练中的图像前景中的建议。通过将 DetPro 与状态 - of-the-art 的开放世界对象检测器 ViLD 组装在一起,并在 LVIS 以及 Pascal VOC,COCO,Objects365 数据集上进行实验,实验结果表明,我们的 DetPro 在所有设置中都优于基线 ViLD,例如在 LVIS 的新颖类上提高了 3.4 APbox 和 3.0 APmask。