NamedMask: 从补充基础模型中提取分割模型

Sep, 2022

NamedMask: 从补充基础模型中提取分割模型

NamedMask: Distilling Segmenters from Complementary Foundation Models

Gyungin Shin, Weidi Xie, Samuel Albanie

TL;DR本文提出 NamedMask 方法，采用 CLIP 和 DINO 两个模型相辅相成的特点，构建一种用于图像分割的模型，实现根据类别对图像进行语义分割，并在 VOC2012、COCO 和 ImageNet-S 等数据集上实验，取得了令人瞩目的结果。

Abstract

The goal of this work is to segment and name regions of images without access to pixel-level labels during training. To tackle this task, we construct segmenters by distilling the complementary strengths of two foundation models. The first, clip (Radford et al. 2021), exhibits the abil

image segmentation clip dino namedmask semantic segmentation

发现论文，激发创造

Mask DINO: 基于 Transformer 的统一物体检测与分割框架

这篇论文介绍了 Mask DINO，一种统一的物体检测和分割框架，能够通过 DOT product 技术预测出一组二进制掩模，进行各种图像分割任务（实例、全景和语义）。它能够从联合大规模检测和分割数据集中获益，并且显示了卓越的性能优势。

Jun, 2022

基于基础模型时代的少样本语义分割新基准

在计算机视觉中，我们比较了四种著名的视觉基础模型（DINO V2，Segment Anything，CLIP，Masked AutoEncoders 和在 COCO 数据集上预训练的 ResNet50），发现 DINO V2 在各种数据集和适应方法上始终优于其他模型，突出了其在语义分割任务上的优越适应能力。此外，我们观察到各种适配器方法表现相似，强调了选择稳健特征提取器比适应技术本身的复杂性更为重要，这一发现揭示了在少样本语义分割情境中特征提取的关键作用。此研究不仅为少样本语义分割领域的视觉基础模型的比较性能提供宝贵见解，还强调了稳健特征提取器在该领域的重要性。

Jan, 2024

Open-Vocabulary Panoptic Segmentation with MaskCLIP

本文提出了用于任意描述的显式开放分类的 Panoptic 分割，建立了一个没有调优或蒸馏的基线方法，然后开发了一个新的基于 Transformer 的方法 MaskCLIP，使用 ViT-CLIP 骨架和掩模查询来执行语义和物体实例分割。最后，在 ADE20K 和 PASCAL 数据集上获得了令人鼓舞的结果，并展示了 MaskCLIP 的定制类别的定性说明。

Aug, 2022

使用适应掩码的 CLIP 进行开放词汇语义分割

该论文提出了一种针对开放词汇的语义分割方法，即通过预训练模型再特定训练样本上的微调和修正，来解决预训练模型在遮蔽图像上的效果问题，从而提高模型的泛化能力，并通过遮蔽抽取方法有效地提高了语义分割的效果。

Oct, 2022

CLIP-DINOiser: 教授 CLIP 一些 DINO 的技巧

我们提出了一种零样本开放词汇语义分割方法，无需任何注释，通过从自监督特征中提取出的定位先验来局部改进密集的 MaskCLIP 特征，从而显著提升 MaskCLIP 的性能并产生平滑的输出。

Dec, 2023

从 CLIP 中提取无标签稠密特征

本文旨在探讨 Contrastive Language-Image Pre-training (CLIP) 在像素级密集预测，特别是语义分割方面的潜力，并以 MaskCLIP 为例证明了它在无需注释和微调的情况下可以产生令人满意的分割结果。通过添加伪标签和自训练，MaskCLIP + 甚至超过了 SOTA 的泛化零样本语义分割方法。

Dec, 2021

魔鬼在对象边界：基于 Foundation 模型的无标记实例分割

基于大量数据预训练的模型在各种下游任务中展示出令人印象深刻的零摸索能力，但是在目标检测和实例分割等基本计算机视觉任务中，这些基础模型（如 SAM 和 DINO）难以达到令人满意的性能。本研究揭示了根源在于目标边界，即这些基础模型无法区分个体对象之间的边界。我们首次证明 CLIP，它从未访问过任何实例级注释，可以在其特定中间层的聚类结果中提供极具益处和强大的实例级边界先验。基于这一令人惊讶的观察，我们提出了 Zip，它在一个新颖的 “先分类，然后发现” 管道中将 CLip 和 SAM 结合起来，从而实现了无需注释、适应复杂场景并具有开放词汇的目标检测和实例分割。我们的 Zip 显著提升了在 COCO 数据集上 SAM 的遮罩 AP 值达到了 12.5%，并在各种设置中建立了最先进的性能，包括无需训练、自训练和标签高效微调。此外，无需注释的 Zip 甚至实现了与使用基本注释的最佳开放词汇目标检测器相媲美的性能。代码在此 https URL 上发布。

Apr, 2024

对比度掩蔽：对每样东西进行分割的对比学习

通过在受限的可见类别上学习有标注遮罩，从而消除繁重注释负担，并在新颖的 unseen 类别上分割对象，部分监督实例分割是一个任务。本文提出了 ContrastMask，它在统一的像素级对比学习框架下，同时在可见和未知类别上学习掩模分割模型，提高了前景和背景的特征辨别率，促进了课程无关掩模分割模型的学习，在 COCO 数据集上的详尽实验证明了我们方法的优越性，胜过了之前的最新技术。

Mar, 2022

使用 Transformer 发现对象掩膜，用于无监督语义分割

该论文提出 MaskDistill 这一基于数据驱动策略的无监督语义分割框架，通过生成像素分组先验和聚类对象掩模来训练初始对象分割模型并过滤低质量对象掩模，从而有效提高 PASCAL 和 COCO 上的性能。

Jun, 2022

基于基础模型的 3D 开放词汇分割

本研究利用预训练的 CLIP 和 DINO 模型的多模式知识和物体推理能力来解决三维开放式词汇分割的挑战。通过优化神经辐射场 (NeRF) 并引入相应的损失函数，本研究在无需进行微调的情况下，以开放式视觉和文本知识为先验知识，从 2D 特征中提取出 3D 分割特征。通过实验验证，本研究所提出的方法在无需分割注释的情况下，甚至优于完全监督的分割模型训练，表明三维开放式词汇分割可以有效地从 2D 图像和文本图像对中学到。

May, 2023