SAM-CLIP：融合视觉基础模型实现语义和空间理解

Oct, 2023

SAM-CLIP：融合视觉基础模型实现语义和空间理解

SAM-CLIP: Merging Vision Foundation Models towards Semantic and Spatial Understanding

Haoxiang Wang, Pavan Kumar Anasosalu Vasu, Fartash Faghri, Raviteja Vemulapalli, Mehrdad Farajtabar...

TL;DR我们提出了一种简单的方法，将视觉基础模型（如 CLIP 和 Segment Anything Model）高效地合并成一个统一的模型，以便于边缘设备应用，并能够在广泛的视觉任务中学习富含定位和语义特征的更丰富的视觉表示，同时在零样本语义分割方面取得了新的最先进结果。

Abstract

The landscape of publicly available vision foundation models (VFMs), such as clip and segment anything model (SAM), is expanding rapidly.

vision foundation models clip segment anything model unified model sam-clip

发现论文，激发创造

开放词汇 SAM：交互式地分段和识别两万个类别

该论文介绍了将 CLIP 和 Segment Anything Model（SAM）集成到统一框架中的深入研究，提出了基于 SAM 的 Open-Vocabulary SAM 模型，实现了同时交互分割和识别的功能，并通过知识转移模块 SAM2CLIP 和 CLIP2SAM 进行知识转移，显著优于简单组合 SAM 和 CLIP 的基准线。此外，通过图像分类数据训练，我们的方法可以分割和识别大约 22,000 个类别。

Jan, 2024

SaLIP 与 SAM、CLIP 级联用于零样本医学图像分割的测试时间自适应

该研究论文提出了一种将 Segment Anything Model（SAM）和 CLIP 集成为医学图像分割的统一框架 SaLIP 的方法，展示了在零样本分割中显著提高的 DICE 得分，在脑部（63.46%）、肺部（50.11%）和胎头（30.82%）等不同分割任务中表现出显著改进。

Apr, 2024

ClipSAM：CLIP 与 SAM 的零样本异常分割合作

CLIP 和 SAM 协作的 ClipSAM 框架可用于零样本异常分割任务，通过结合 CLIP 的语义理解和 SAM 的细分结果优化，获得最佳的分割性能。

Jan, 2024

通过视觉基础模型实现无标签场景理解

该研究调查了使用视觉基础模型实现二维和三维场景理解的潜力，并提出了一个新的跨模式噪声监督方法，利用 CLIP 和 SAM 模型的优势共同训练二维和三维网络，实现了在不需要标记数据的情况下进行图像语义分割。

Jun, 2023

MedCLIP-SAM：将文本和图像融合以实现通用医学图像分割

提出了一种新颖的框架 ——MedCLIP-SAM，结合了 CLIP 和 SAM 模型，使用文本提示在零样本和弱监督设置中生成临床扫描的分割，通过广泛测试三个不同的分割任务和医学图像模态，证明了该框架具有出色的准确性。

Mar, 2024

使用 SLIP（SAM+CLIP）进行零样本上下文物体分割

SLIP 是一种增强的架构，通过将文本提示与 Segment Anything Model（SAM）和 Contrastive Language-Image Pretraining（CLIP）相结合，实现了零样本目标分割。将 CLIP 集成到 SAM 中，SLIP 能够根据文本提示从上下文信息来识别和分割图像中的对象，扩展了 SAM 在多功能目标分割方面的能力。

May, 2024

PosSAM: 全景开放词汇片段检测

提出了一种开放词汇的全景分割模型，通过端到端框架有机地结合了 Segment Anything Model (SAM) 和视觉 - 语言 CLIP 模型的优势。通过使用局部判别汇聚模块（LDP），克服了 SAM 的局限性，并引入了面向掩膜的选择集成算法（MASE）来自适应地提高生成掩膜的质量，从而在多个数据集上展示了很强的泛化性能，并且在开放词汇全景分割方法方面取得了显著的改进。

Mar, 2024

利用大规模预训练视觉基础模型进行高效标签的 3D 点云分割

通过采用大规模预训练模型、计算机视觉和 2D 任务，本研究提出了一种新的框架来解决 3D 点云分割任务，通过将 2D 语义分割预测投影到 3D 空间，并引入语义标签融合策略，实现了在扩展的数据集上的 3D 场景理解。

Nov, 2023

基于基础模型辅助的弱监督语义分割

这项研究旨在利用预训练的基础模型，如对比语言图像预训练（CLIP）和分段任意模型（SAM），利用图像级别标签解决弱监督语义分割（WSSS）。为此，我们提出了基于 CLIP 和 SAM 的粗到精细的框架，用于生成高质量的分割种子。我们通过冻结权重的 CLIP 和两组可学习的任务特定提示共同执行图像分类任务和种子分割任务。我们设计了一个基于 SAM 的分区（SAMS）模块，并将其应用于每个任务以生成粗糙或精细的种子图。此外，我们设计了一个多标签对比损失，由图像级别标签监督，和一个由生成的粗糙种子图监督的 CAM 激活损失。这些损失用于学习提示，在我们的框架中，提示是唯一需要学习的部分。一旦学习了提示，我们将每个图像以及学习的分割特定提示输入到 CLIP 和 SAMS 模块中，以生成高质量的分割种子。这些种子用作伪标签，用于训练一种现成的分割网络，就像其他两阶段的 WSSS 方法一样。实验证明，我们的方法在 PASCAL VOC 2012 上取得了最先进的性能，并在 MS COCO 2014 上获得了有竞争力的结果。

Dec, 2023

无需调整的普遍监督语义分割

本研究提出了一种无需调参的基于 CLIP 的语义分割框架，可以普遍适用于各种类型的监督。通过利用 CLIP 的零样本分类能力生成伪标签或进行开放词汇量的分割，我们解决了蒙版与 CLIP 文本嵌入之间的偏差问题，提出了一种判别偏差对齐的 CLIP 方法以获得更好的性能。我们构建了一个全局 - 局部一致性的分类器来对 SAM 蒙版进行分类，揭示了 DBA-CLIP 产生的高质量嵌入的内在结构，并展示了对噪声伪标签的鲁棒性。大量实验证实了我们方法的效率和有效性，并在各种数据集和监督类型上取得了最先进或具有竞争力的性能。

May, 2024