使用 SLIP（SAM+CLIP）进行零样本上下文物体分割

May, 2024

使用 SLIP（SAM+CLIP）进行零样本上下文物体分割

Zero Shot Context-Based Object Segmentation using SLIP (SAM+CLIP)

Saaketh Koundinya Gundavarapu, Arushi Arora, Shreya Agarwal

TL;DRSLIP 是一种增强的架构，通过将文本提示与 Segment Anything Model（SAM）和 Contrastive Language-Image Pretraining（CLIP）相结合，实现了零样本目标分割。将 CLIP 集成到 SAM 中，SLIP 能够根据文本提示从上下文信息来识别和分割图像中的对象，扩展了 SAM 在多功能目标分割方面的能力。

Abstract

We present slip (sam+clip), an enhanced architecture for zero-shot object segmentation. →

slip zero-shot object segmentation sam clip text prompts

发现论文，激发创造

SaLIP 与 SAM、CLIP 级联用于零样本医学图像分割的测试时间自适应

该研究论文提出了一种将 Segment Anything Model（SAM）和 CLIP 集成为医学图像分割的统一框架 SaLIP 的方法，展示了在零样本分割中显著提高的 DICE 得分，在脑部（63.46%）、肺部（50.11%）和胎头（30.82%）等不同分割任务中表现出显著改进。

Apr, 2024

ClipSAM：CLIP 与 SAM 的零样本异常分割合作

CLIP 和 SAM 协作的 ClipSAM 框架可用于零样本异常分割任务，通过结合 CLIP 的语义理解和 SAM 的细分结果优化，获得最佳的分割性能。

Jan, 2024

MedCLIP-SAM：将文本和图像融合以实现通用医学图像分割

提出了一种新颖的框架 ——MedCLIP-SAM，结合了 CLIP 和 SAM 模型，使用文本提示在零样本和弱监督设置中生成临床扫描的分割，通过广泛测试三个不同的分割任务和医学图像模态，证明了该框架具有出色的准确性。

Mar, 2024

开放词汇 SAM：交互式地分段和识别两万个类别

该论文介绍了将 CLIP 和 Segment Anything Model（SAM）集成到统一框架中的深入研究，提出了基于 SAM 的 Open-Vocabulary SAM 模型，实现了同时交互分割和识别的功能，并通过知识转移模块 SAM2CLIP 和 CLIP2SAM 进行知识转移，显著优于简单组合 SAM 和 CLIP 的基准线。此外，通过图像分类数据训练，我们的方法可以分割和识别大约 22,000 个类别。

Jan, 2024

SAM-CLIP：融合视觉基础模型实现语义和空间理解

我们提出了一种简单的方法，将视觉基础模型（如 CLIP 和 Segment Anything Model）高效地合并成一个统一的模型，以便于边缘设备应用，并能够在广泛的视觉任务中学习富含定位和语义特征的更丰富的视觉表示，同时在零样本语义分割方面取得了新的最先进结果。

Oct, 2023

CLIP 也是高效分割器：一种文本驱动的弱监督语义分割方法

利用 Contrastive Language-Image Pre-training (简称 CLIP) 模型进行图像级标注的弱监督语义分割 (WSSS) 是一项具有挑战性的任务。本文提出了一种 CLIP-ES 框架，结合了 softmax 函数、基于文本的驱动策略和一种实时的基于注意力机制的亲和度 (CAA) 模块，以及 CGL 损失，来提高 WSSS 的效率和性能。

Dec, 2022

RegionCLIP: 基于区域的语言 - 图像预训练

RegionCLIP 是一种新的方法，扩展了 CLIP 模型的范围，使其可以学习区域级别的视觉表征，从而实现图像区域和文本概念之间的细粒度对齐，进而在目标检测领域表现出良好的性能。

Dec, 2021

ZegCLIP：面向零样本语义分割的 CLIP 自适应

本文提出了一种基于 CLIP 的零样本语义分割方法 ZegCLIP，将其从图像级别扩展到像素级别，通过三种简单而有效的设计处理过拟合问题，具有更好的泛化能力和速度优势。

Dec, 2022

无需调整的普遍监督语义分割

本研究提出了一种无需调参的基于 CLIP 的语义分割框架，可以普遍适用于各种类型的监督。通过利用 CLIP 的零样本分类能力生成伪标签或进行开放词汇量的分割，我们解决了蒙版与 CLIP 文本嵌入之间的偏差问题，提出了一种判别偏差对齐的 CLIP 方法以获得更好的性能。我们构建了一个全局 - 局部一致性的分类器来对 SAM 蒙版进行分类，揭示了 DBA-CLIP 产生的高质量嵌入的内在结构，并展示了对噪声伪标签的鲁棒性。大量实验证实了我们方法的效率和有效性，并在各种数据集和监督类型上取得了最先进或具有竞争力的性能。

May, 2024

SLIP: 自监督与语言图像预训练的结合

本文提出 SLIP，结合基于自监督的学习和 CLIP 预训练的多任务学习框架，通过在 ImageNet 和其他数据集上进行多个实验，发现 SLIP 表现出更好的性能，同时获得比基于自监督学习和语言监督学习更高的准确性提高。

Dec, 2021