无监督 Transformer 定位物体

Sep, 2021

Localizing Objects with Self-Supervised Transformers and no Labels

Oriane Siméoni, Gilles Puy, Huy V. Vo, Simon Roburin, Spyros Gidaris...

TL;DR本文提出了一种不需要昂贵的注释活动的图像集合中的目标本地化的简单方法（称为 LOST），该方法利用了以自我监督方式预训练的视觉转换器的激活特征，同时在 PASCAL VOC 2012 上的实验表明，该方法优于最先进的目标发现方法最高可达 8 CorLoc 点。此外，我们还展示了在发现对象的基础上训练一个不具有类别属性的检测器可以再次提高 7 个点，此外，我们在无监督对象发现任务上也展示了有希望的结果。

Abstract

localizing objects in image collections without supervision can help to avoid expensive annotation campaigns. We propose a simple approach to this problem, that leverages the activation features of a vision trans

localizing objects image collections self-supervised learning object discovery methods unsupervised object discovery

发现论文，激发创造

自监督 ViTs 时代的无监督对象定位调查

最近对开放式视觉系统的热情表明了社区在封闭词汇基准设置之外进行感知任务的高度兴趣。在不事先知道数据集中包含哪些对象的情况下，能够在图像 / 视频中发现对象是一个令人兴奋的前景。最近的研究表明，通过利用自我监督预训练特征，可以进行无类别无监督的对象定位。在自我监督 ViT 的时代，我们在此提出一种调查无监督对象定位方法，其能够在图像中发现对象而无需任何手动注释。我们在以下链接中汇总了所讨论方法的资源库：this https URL

Oct, 2023

深度神经网络自学目标定位

介绍了一种新方法，利用深度卷积神经网络对整张图片进行训练，以在不额外进行人工监督的情况下定位图像中的物体，并将该思想嵌入凝聚聚类技术中，产生自学习定位假设。实验证明，使用我们的方法自动生成的注释可用于训练物体探测器，产生接近于手动注释的边界框的识别结果。

Sep, 2014

学习仅需最少监督的物体定位

本论文提出了一种新方法，通过图像级标签，结合判别子模块覆盖问题和平滑的潜在 SVM 公式，实现仅需很少的监督，即可学习定位对象。实验表明，该方法在 PASCAL VOC 2007 检测中，相对于现有技术有 50％的平均精确度提升。

Mar, 2014

使用自监督 Transformer 进行多目标定位的目标发现

本文提出了使用自监督学习训练的 Transformer 网络定位多个物体的方法 MOST，并通过分形分析检测出前景补丁上的代币，将代币聚类生成边界框，最终在 PASCAL-VOC 07、12 和 COCO20k 数据集上表现优于其他方法，同时表明 MOST 可以用于目标检测的自监督预训练，并在全、半监督目标检测和非监督区域提议生成方面获得一致的改进。

Apr, 2023

面向大规模图像集合的无监督多目标发现

该论文提出了一个基于无监督学习的物体发现方法，其中包括了基于显著性的边界提取算法以及采用层次结构与两阶段策略提高发现效率。通过使用小型随机图片集和整个图片集合，该方法能够发现每张图片中的多个目标，实现了对面向真实大规模图像数据集的无监督图像解释的重要的一步。

Jul, 2020

使用归一化切割的自监督 Transformers 进行无监督目标发现

本文提出了一种基于自监督学习训练的 Transformer 模型特征的基于图的对象发现方法，在图中进行规范化的图割以分组具有相似性区域的前景物体。该方法可以显著提高无监督对象发现的性能，也可以扩展到无监督凸显性检测和弱监督对象检测领域。

Feb, 2022

利用视觉和语言模型开发目标检测算法的无标签数据

利用视觉与语言模型产生伪标签的方法来实现无标注图像中物体的定位和分类，从而解决大规模获取标注数据的难题，并通过在学习过程中使用这些伪标签，展示了该方法在开放词汇检测和半监督目标检测等任务上的有效性。

Jul, 2022

深度自学习用于弱监督目标定位

提出一种使用深度自我学习方法进行弱监督定位的实现，以获取可靠的正样本，并通过一个在线支持的样本收获方案去动态地选择最有信心的正样本以达到相互促进。

Apr, 2017

自监督检测预训练的实例定位

本研究旨在推进自主学习预训练模型专门用于物体检测。通过提出一种名为实例定位的自我监督预文本任务，该任务涉及将图像实例粘贴到背景图像的各个位置和尺度上。将包围框集成到预训练中可促进更好的任务对齐和转移学习的架构对齐。通过在边界框上应用增强方法，模型成为弱于 Imagenet 语义分类但强于图像补丁定位的更强的预训练模型，对 PASCAL VOC 和 MSCOCO 上的物体检测产生最先进的转移学习结果。

Feb, 2021

ViTOL: 弱监督目标定位的视觉 Transformer

我们提出了一种名为 ViTOL 的方法来处理弱监督目标定位问题，在自我关注和渐变关注实现的基础上，引入了基于补丁的关注中断层 (p-ADL) 用于增加定位图的覆盖范围，并且使用基于类别的注意力图生成机制来解决类不可知的问题，并在 ImageNet-1K 和 CUB 数据集上取得了 70.47% 和 73.17% 的最新结果。

Apr, 2022