Sep, 2021

无监督 Transformer 定位物体

TL;DR本文提出了一种不需要昂贵的注释活动的图像集合中的目标本地化的简单方法(称为 LOST),该方法利用了以自我监督方式预训练的视觉转换器的激活特征,同时在 PASCAL VOC 2012 上的实验表明,该方法优于最先进的目标发现方法最高可达 8 CorLoc 点。此外,我们还展示了在发现对象的基础上训练一个不具有类别属性的检测器可以再次提高 7 个点,此外,我们在无监督对象发现任务上也展示了有希望的结果。