Jul, 2022

打通目标与图像级别表示以实现开放词汇检测

TL;DR本文提出了一种基于 CLIP 模型和图像水平监督的对象中心对齐的方法,运用伪标注实现高质量对象提议并在训练过程中扩展词汇表,通过新的权重传递函数将两种对象对齐策略结合,实现了在 OVD 方案中对象和图像中心表示的最小化差距。在 COCO 数据集上,我们的方法在新颖类别上取得了 36.6 的 AP50 表现,绝对值超过了以前的最佳性能。对于 LVIS,我们在罕见类别上超越了最新的 ViLD 模型达 5.0 的掩膜 AP,总体提高 3.4。