PosSAM: 全景开放词汇片段检测

Mar, 2024

PosSAM: Panoptic Open-vocabulary Segment Anything

Vibashan VS, Shubhankar Borse, Hyojin Park, Debasmit Das, Vishal Patel...

TL;DR提出了一种开放词汇的全景分割模型，通过端到端框架有机地结合了 Segment Anything Model (SAM) 和视觉 - 语言 CLIP 模型的优势。通过使用局部判别汇聚模块（LDP），克服了 SAM 的局限性，并引入了面向掩膜的选择集成算法（MASE）来自适应地提高生成掩膜的质量，从而在多个数据集上展示了很强的泛化性能，并且在开放词汇全景分割方法方面取得了显著的改进。

Abstract

In this paper, we introduce an open-vocabulary panoptic segmentation model that effectively unifies the strengths of the Segment Anything Model (SAM) with the vision-language clip model in an →

open-vocabulary panoptic segmentation segment anything model (sam)vision-language clip model end-to-end framework local discriminative pooling (ldp) module

发现论文，激发创造

开放词汇 SAM：交互式地分段和识别两万个类别

该论文介绍了将 CLIP 和 Segment Anything Model（SAM）集成到统一框架中的深入研究，提出了基于 SAM 的 Open-Vocabulary SAM 模型，实现了同时交互分割和识别的功能，并通过知识转移模块 SAM2CLIP 和 CLIP2SAM 进行知识转移，显著优于简单组合 SAM 和 CLIP 的基准线。此外，通过图像分类数据训练，我们的方法可以分割和识别大约 22,000 个类别。

Jan, 2024

提升分段通用模型以实现开放词汇学习

本研究旨在无缝地将 Segment Anything Model (SAM) 与开放词汇目标检测器集成在一起，引入了 SideFormer 模块和开放区域建议网络 (Open-set RPN) 等创新方法，以提升 SAM 在检测任意对象和开放词汇识别方面的性能。Sambor 在 COCO 和 LVIS 等基准测试中展现出卓越的零样本性能，并与之前的最先进方法竞争力十足，旨在为 SAM 赋予识别多样化对象类别和促进视觉基础模型的开放词汇学习提供有意义的努力。

Dec, 2023

GoodSAM: 透过分段模型建立领域和能力差距，实现适应扭曲感知的全景语义分割

本文提出了一种名为 GoodSAM 的新型框架，通过引入教师助理 (TA) 并融合 SAM 的集成 logits 来解决从 Segment Anything Model (SAM) 到学生模型的知识转移问题，同时提出了 Distortion-Aware Rectification (DAR) 模块和 Multi-level Knowledge Adaptation (MKA) 模块来处理全景图像的畸变问题并进行多级特征知识的有效传递，实验证明 GoodSAM 在两个基准测试上取得了较先进方法 + 3.75% 的平均交并比 (mIoU) 提升，并且我们最轻量级的模型仅有 3.7M 个参数却达到了与先进方法相媲美的性能。

Mar, 2024

PA-SAM：高质量图像分割的指示适配器 SAM

通过引入一种新型的提示驱动适配器（PA-SAM）到 Segment Anything Model (SAM) 中，提高了原始 SAM 的分割掩模质量，通过在稀疏和密集提示级别上优化面罩解码器功能，从图像中提取详细信息，实验结果表明 PA-SAM 在高质量、零样本和开放集分割方面优于其他基于 SAM 的方法。

Jan, 2024

Open-Vocabulary Panoptic Segmentation with MaskCLIP

本文提出了用于任意描述的显式开放分类的 Panoptic 分割，建立了一个没有调优或蒸馏的基线方法，然后开发了一个新的基于 Transformer 的方法 MaskCLIP，使用 ViT-CLIP 骨架和掩模查询来执行语义和物体实例分割。最后，在 ADE20K 和 PASCAL 数据集上获得了令人鼓舞的结果，并展示了 MaskCLIP 的定制类别的定性说明。

Aug, 2022

个性化一次性分段模型

本文提出了一种称为 PerSAM 的、无需训练的个性化方法，该方法首先通过位置先验定位目标概念，然后通过三种技术 - 目标引导注意力、目标语义提示和级联后处理在其他图像或视频中对其进行分割，有效地适应 SAM 的私人使用。此外，我们还提出了一种高效的单次微调变体，PerSAM-F，以缓解掩模的歧义。我们构建了一个新的分割数据集 PerSeg，并在具有竞争性的性能的视频对象分割上测试了我们的方法。

May, 2023

无需调整的普遍监督语义分割

本研究提出了一种无需调参的基于 CLIP 的语义分割框架，可以普遍适用于各种类型的监督。通过利用 CLIP 的零样本分类能力生成伪标签或进行开放词汇量的分割，我们解决了蒙版与 CLIP 文本嵌入之间的偏差问题，提出了一种判别偏差对齐的 CLIP 方法以获得更好的性能。我们构建了一个全局 - 局部一致性的分类器来对 SAM 蒙版进行分类，揭示了 DBA-CLIP 产生的高质量嵌入的内在结构，并展示了对噪声伪标签的鲁棒性。大量实验证实了我们方法的效率和有效性，并在各种数据集和监督类型上取得了最先进或具有竞争力的性能。

May, 2024

ClipSAM：CLIP 与 SAM 的零样本异常分割合作

CLIP 和 SAM 协作的 ClipSAM 框架可用于零样本异常分割任务，通过结合 CLIP 的语义理解和 SAM 的细分结果优化，获得最佳的分割性能。

Jan, 2024

从空间中分割任何物体？

研究了针对视觉任务开发的第一个基础模型，称为 Segment Anything Model（SAM）。SAM 可以基于便宜的输入提示，如一个或多个点、边界框或掩码，在输入的图像中分割对象。作者在大量的视觉基准任务中研究了 SAM 的零样本图像分割准确性，并发现 SAM 通常实现了与目标任务上进行了训练的视觉模型类似或有时超过其识别精度。他们检查了 SAM 在多样化、广泛研究的基准任务集上的表现。然而，作者还研究了 SAM 在航空图像问题中的表现，他们发现虽然 SAM 在航空图像上通常表现良好，但在某些情况下由于航空图像和目标对象的独特特征而失败。

Apr, 2023

基于语义感知的点提示实例分割及验证

使用 Segment Anything (SAM) 集成 Multiple Instance Learning (MIL) 的 Semantic-Aware Instance Segmentation Network (SAPNet) 有助于解决弱监督分割中 'group' 和 'local' 问题，提高语义匹配能力和基于点提示的实例分割性能。

Dec, 2023