魔鬼在对象边界：基于 Foundation 模型的无标记实例分割

ICLRApr, 2024

魔鬼在对象边界：基于 Foundation 模型的无标记实例分割

The devil is in the object boundary: towards annotation-free instance segmentation using Foundation Models

Cheng Shi, Sibei Yang

TL;DR基于大量数据预训练的模型在各种下游任务中展示出令人印象深刻的零摸索能力，但是在目标检测和实例分割等基本计算机视觉任务中，这些基础模型（如 SAM 和 DINO）难以达到令人满意的性能。本研究揭示了根源在于目标边界，即这些基础模型无法区分个体对象之间的边界。我们首次证明 CLIP，它从未访问过任何实例级注释，可以在其特定中间层的聚类结果中提供极具益处和强大的实例级边界先验。基于这一令人惊讶的观察，我们提出了 Zip，它在一个新颖的 “先分类，然后发现” 管道中将 CLip 和 SAM 结合起来，从而实现了无需注释、适应复杂场景并具有开放词汇的目标检测和实例分割。我们的 Zip 显著提升了在 COCO 数据集上 SAM 的遮罩 AP 值达到了 12.5%，并在各种设置中建立了最先进的性能，包括无需训练、自训练和标签高效微调。此外，无需注释的 Zip 甚至实现了与使用基本注释的最佳开放词汇目标检测器相媲美的性能。代码在此 https URL 上发布。

Abstract

foundation models, pre-trained on a large amount of data have demonstrated impressive zero-shot capabilities in various downstream tasks. However, in object detection and →

foundation models object detection instance segmentation clip zip

发现论文，激发创造

通过视觉基础模型实现无标签场景理解

该研究调查了使用视觉基础模型实现二维和三维场景理解的潜力，并提出了一个新的跨模式噪声监督方法，利用 CLIP 和 SAM 模型的优势共同训练二维和三维网络，实现了在不需要标记数据的情况下进行图像语义分割。

Jun, 2023

NamedMask: 从补充基础模型中提取分割模型

本文提出 NamedMask 方法，采用 CLIP 和 DINO 两个模型相辅相成的特点，构建一种用于图像分割的模型，实现根据类别对图像进行语义分割，并在 VOC2012、COCO 和 ImageNet-S 等数据集上实验，取得了令人瞩目的结果。

Sep, 2022

SAM-CLIP：融合视觉基础模型实现语义和空间理解

我们提出了一种简单的方法，将视觉基础模型（如 CLIP 和 Segment Anything Model）高效地合并成一个统一的模型，以便于边缘设备应用，并能够在广泛的视觉任务中学习富含定位和语义特征的更丰富的视觉表示，同时在零样本语义分割方面取得了新的最先进结果。

Oct, 2023

无需调整的普遍监督语义分割

本研究提出了一种无需调参的基于 CLIP 的语义分割框架，可以普遍适用于各种类型的监督。通过利用 CLIP 的零样本分类能力生成伪标签或进行开放词汇量的分割，我们解决了蒙版与 CLIP 文本嵌入之间的偏差问题，提出了一种判别偏差对齐的 CLIP 方法以获得更好的性能。我们构建了一个全局 - 局部一致性的分类器来对 SAM 蒙版进行分类，揭示了 DBA-CLIP 产生的高质量嵌入的内在结构，并展示了对噪声伪标签的鲁棒性。大量实验证实了我们方法的效率和有效性，并在各种数据集和监督类型上取得了最先进或具有竞争力的性能。

May, 2024

CLIP-DINOiser: 教授 CLIP 一些 DINO 的技巧

我们提出了一种零样本开放词汇语义分割方法，无需任何注释，通过从自监督特征中提取出的定位先验来局部改进密集的 MaskCLIP 特征，从而显著提升 MaskCLIP 的性能并产生平滑的输出。

Dec, 2023

ClipSAM：CLIP 与 SAM 的零样本异常分割合作

CLIP 和 SAM 协作的 ClipSAM 框架可用于零样本异常分割任务，通过结合 CLIP 的语义理解和 SAM 的细分结果优化，获得最佳的分割性能。

Jan, 2024

CLIP-DIY：CLIP 密集推理免费实现开放词汇语义分割

本文提出了一种名为 CLIP-DIY 的开放词汇语义分割方法，该方法利用现有的无监督目标定位方法，直接在不同尺度的补丁上利用 CLIP 的分类能力，并通过无监督的目标定位方法指导分割过程，从而在 PASCAL VOC 上获得了最新的零样本语义分割结果，并在 COCO 上表现与最佳方法相当。

Sep, 2023

使用 SLIP（SAM+CLIP）进行零样本上下文物体分割

SLIP 是一种增强的架构，通过将文本提示与 Segment Anything Model（SAM）和 Contrastive Language-Image Pretraining（CLIP）相结合，实现了零样本目标分割。将 CLIP 集成到 SAM 中，SLIP 能够根据文本提示从上下文信息来识别和分割图像中的对象，扩展了 SAM 在多功能目标分割方面的能力。

May, 2024

AnomalyCLIP: 面向对象无关的零样本异常检测的提示学习

AnomalyCLIP 通过学习无关物体的文本提示来捕捉图像中的通常和异常，从而实现了对高度多样的物体数据集进行广义正常性和异常性识别的零样本卓越性能。

Oct, 2023

从 CLIP 中提取无标签稠密特征

本文旨在探讨 Contrastive Language-Image Pre-training (CLIP) 在像素级密集预测，特别是语义分割方面的潜力，并以 MaskCLIP 为例证明了它在无需注释和微调的情况下可以产生令人满意的分割结果。通过添加伪标签和自训练，MaskCLIP + 甚至超过了 SOTA 的泛化零样本语义分割方法。

Dec, 2021