Jul, 2022
打通目标与图像级别表示以实现开放词汇检测
Bridging the Gap between Object and Image-level Representations for
Open-Vocabulary Detection
TL;DR本文提出了一种基于CLIP模型和图像水平监督的对象中心对齐的方法,运用伪标注实现高质量对象提议并在训练过程中扩展词汇表,通过新的权重传递函数将两种对象对齐策略结合,实现了在OVD方案中对象和图像中心表示的最小化差距。在COCO数据集上,我们的方法在新颖类别上取得了36.6的AP50表现,绝对值超过了以前的最佳性能。对于LVIS,我们在罕见类别上超越了最新的ViLD模型达5.0的掩膜AP,总体提高3.4。