使用 Transformer 发现对象掩膜,用于无监督语义分割
本文旨在通过采用对比优化目标中的预定中级先验,引入了一个两步框架来学习像素嵌入,从而解决了计算机视觉中的无监督语义表示学习问题,并证明此方法优于现有方法。
Feb, 2021
本文提出了一种统一的视角,针对现有方法进行了修订,并引入了一种名为 MaskDistill 的简单而有效的方法,通过对受损输入图像的屏蔽位置的主题模型重新构建归一化语义特征,以解决大规模训练视觉转换器中需要大量标记的问题,实验结果表明,MaskDistill 在图像分类和语义分割方面的表现优于现有技术。
Oct, 2022
我们提出了一个用于无监督语义分割的轻量级聚类框架,基于自监督视觉变换器的注意特征,通过将这些特征聚类成少量的聚类中心,我们能够将前景和背景的图像补丁分开成不同的组。我们的框架在无监督语义分割方面展示了很大的潜力,并在 PASCAL VOC 和 MS COCO 数据集上取得了最新的成果。
Nov, 2023
STEGO 是一种新的自监督特征提取框架,通过使用对比损失函数来加强特征聚类的紧凑性,并在 CocoStuff 和 Cityscapes 语义分割挑战中显著优于其他算法。
Mar, 2022
该研究提出了一种针对自动驾驶数据量身定制的自监督 3D 感知模型预训练方法,使用 superpixels 来池化 3D 点特征和 2D 像素特征,训练 3D 网络来匹配虚拟对应的 2D 像素特征并提取特征,从而实现无需任何点云或图像注释的 3D 语义分割和车辆物体检测,进行了大量的自动驾驶数据集实验以证明其有效性。
Mar, 2022
本文提出 NamedMask 方法,采用 CLIP 和 DINO 两个模型相辅相成的特点,构建一种用于图像分割的模型,实现根据类别对图像进行语义分割,并在 VOC2012、COCO 和 ImageNet-S 等数据集上实验,取得了令人瞩目的结果。
Sep, 2022
本文提出了一个像素级聚类框架,用于将图像分割成区域,而无需使用地面真值标注。该框架包括特征嵌入模块、特征统计计算模块、图像重建和超像素分割,以实现准确的无监督分割。此外,我们提出了一种训练策略,利用每个超像素内部一致性、相邻超像素间的相似性 / 差异性和图像结构相似性。我们还提出了一种后处理方法,以避免由基于超像素的损失引起的过分分割。最后,我们扩展了所提方法用于无监督语义分割。通过在三个公开数据集上进行实验,我们证明了所提框架的有效性。实验结果表明,所提框架优于先前的最先进方法。
Oct, 2023
利用稳定扩散模型中的自注意力层以及基于测量注意力图之间的 KL 散度的简单而有效的迭代合并过程,我们提出了一种无需训练或语言依赖性,能够从任何图像中提取质量分割的方法。在 COCO-Stuff-27 上,我们的方法在像素准确率和平均 IoU 上都比之前最先进的无监督零样本方法提高了 26% 和 17%。
Aug, 2023
本文研究了 transformers 在图像识别中的应用,提出了一种基于聚类的 k-means Mask Xformer (kMaX-DeepLab) 模型,在多项数据集上均取得了新的最佳表现,为以后的视觉任务中 transformers 的设计提供了参考。
Jul, 2022
本文提出了 DiffusionSeg 框架,利用预训练和扩散模型实现无监督物体发现,并采用合成 - 利用两阶段策略来缓解数据不足和结构差异问题,采用反演技术将图像映射回扩散特征,通过大量实验验证了该方法的优越性。
Mar, 2023