开放词汇 SAM：交互式地分段和识别两万个类别

Jan, 2024

开放词汇 SAM：交互式地分段和识别两万个类别

Open-Vocabulary SAM: Segment and Recognize Twenty-thousand Classes Interactively

Haobo Yuan, Xiangtai Li, Chong Zhou, Yining Li, Kai Chen...

TL;DR该论文介绍了将 CLIP 和 Segment Anything Model（SAM）集成到统一框架中的深入研究，提出了基于 SAM 的 Open-Vocabulary SAM 模型，实现了同时交互分割和识别的功能，并通过知识转移模块 SAM2CLIP 和 CLIP2SAM 进行知识转移，显著优于简单组合 SAM 和 CLIP 的基准线。此外，通过图像分类数据训练，我们的方法可以分割和识别大约 22,000 个类别。

Abstract

The clip and Segment Anything Model (SAM) are remarkable vision foundation models (VFMs). SAM excels in segmentation tasks across diverse domains, while →

clip segment anything model (sam)open-vocabulary sam segmentation recognition

发现论文，激发创造

SAM-CLIP：融合视觉基础模型实现语义和空间理解

我们提出了一种简单的方法，将视觉基础模型（如 CLIP 和 Segment Anything Model）高效地合并成一个统一的模型，以便于边缘设备应用，并能够在广泛的视觉任务中学习富含定位和语义特征的更丰富的视觉表示，同时在零样本语义分割方面取得了新的最先进结果。

Oct, 2023

PosSAM: 全景开放词汇片段检测

提出了一种开放词汇的全景分割模型，通过端到端框架有机地结合了 Segment Anything Model (SAM) 和视觉 - 语言 CLIP 模型的优势。通过使用局部判别汇聚模块（LDP），克服了 SAM 的局限性，并引入了面向掩膜的选择集成算法（MASE）来自适应地提高生成掩膜的质量，从而在多个数据集上展示了很强的泛化性能，并且在开放词汇全景分割方法方面取得了显著的改进。

Mar, 2024

SaLIP 与 SAM、CLIP 级联用于零样本医学图像分割的测试时间自适应

该研究论文提出了一种将 Segment Anything Model（SAM）和 CLIP 集成为医学图像分割的统一框架 SaLIP 的方法，展示了在零样本分割中显著提高的 DICE 得分，在脑部（63.46%）、肺部（50.11%）和胎头（30.82%）等不同分割任务中表现出显著改进。

Apr, 2024

ClipSAM：CLIP 与 SAM 的零样本异常分割合作

CLIP 和 SAM 协作的 ClipSAM 框架可用于零样本异常分割任务，通过结合 CLIP 的语义理解和 SAM 的细分结果优化，获得最佳的分割性能。

Jan, 2024

提升分段通用模型以实现开放词汇学习

本研究旨在无缝地将 Segment Anything Model (SAM) 与开放词汇目标检测器集成在一起，引入了 SideFormer 模块和开放区域建议网络 (Open-set RPN) 等创新方法，以提升 SAM 在检测任意对象和开放词汇识别方面的性能。Sambor 在 COCO 和 LVIS 等基准测试中展现出卓越的零样本性能，并与之前的最先进方法竞争力十足，旨在为 SAM 赋予识别多样化对象类别和促进视觉基础模型的开放词汇学习提供有意义的努力。

Dec, 2023

使用 SLIP（SAM+CLIP）进行零样本上下文物体分割

SLIP 是一种增强的架构，通过将文本提示与 Segment Anything Model（SAM）和 Contrastive Language-Image Pretraining（CLIP）相结合，实现了零样本目标分割。将 CLIP 集成到 SAM 中，SLIP 能够根据文本提示从上下文信息来识别和分割图像中的对象，扩展了 SAM 在多功能目标分割方面的能力。

May, 2024

使用适应掩码的 CLIP 进行开放词汇语义分割

该论文提出了一种针对开放词汇的语义分割方法，即通过预训练模型再特定训练样本上的微调和修正，来解决预训练模型在遮蔽图像上的效果问题，从而提高模型的泛化能力，并通过遮蔽抽取方法有效地提高了语义分割的效果。

Oct, 2022

无需调整的普遍监督语义分割

本研究提出了一种无需调参的基于 CLIP 的语义分割框架，可以普遍适用于各种类型的监督。通过利用 CLIP 的零样本分类能力生成伪标签或进行开放词汇量的分割，我们解决了蒙版与 CLIP 文本嵌入之间的偏差问题，提出了一种判别偏差对齐的 CLIP 方法以获得更好的性能。我们构建了一个全局 - 局部一致性的分类器来对 SAM 蒙版进行分类，揭示了 DBA-CLIP 产生的高质量嵌入的内在结构，并展示了对噪声伪标签的鲁棒性。大量实验证实了我们方法的效率和有效性，并在各种数据集和监督类型上取得了最先进或具有竞争力的性能。

May, 2024

Open-Vocabulary Panoptic Segmentation with MaskCLIP

本文提出了用于任意描述的显式开放分类的 Panoptic 分割，建立了一个没有调优或蒸馏的基线方法，然后开发了一个新的基于 Transformer 的方法 MaskCLIP，使用 ViT-CLIP 骨架和掩模查询来执行语义和物体实例分割。最后，在 ADE20K 和 PASCAL 数据集上获得了令人鼓舞的结果，并展示了 MaskCLIP 的定制类别的定性说明。

Aug, 2022

MedCLIP-SAM：将文本和图像融合以实现通用医学图像分割

提出了一种新颖的框架 ——MedCLIP-SAM，结合了 CLIP 和 SAM 模型，使用文本提示在零样本和弱监督设置中生成临床扫描的分割，通过广泛测试三个不同的分割任务和医学图像模态，证明了该框架具有出色的准确性。

Mar, 2024