通过提示实现任意分词

Dec, 2023

Tokenize Anything via Prompting

Ting Pan, Lulu Tang, Xinlong Wang, Shiguang Shan

TL;DR我们提出了一个统一的、可提示的模型，能够同时分割、识别和描述任何物体。与 SAM 不同的是，我们通过视觉提示在野外构建多用途区域表示。我们使用来自具有 50 亿参数的经过预训练的 CLIP 模型的大规模分割掩码，例如 SA-1B 掩码，和语义先验训练一个可泛化的模型。通过将语义令牌添加到每个掩码令牌中，我们构建了一个可提示的图像解码器，语义令牌负责在预定义的概念空间中学习语义先验。通过在掩码令牌上进行分割和在语义令牌上进行概念预测的联合优化，我们的模型展现了强大的区域识别和定位能力。通过从头开始训练一个 3800 万参数的因果文本解码器，我们在 Visual Genome 区域描述任务上取得了 CIDEr 得分 150.7 的新记录。我们认为这个模型可以作为一个多功能区域级图像分词器，能够为广泛的感知任务编码通用区域上下文。

Abstract

We present a unified, promptable model capable of simultaneously segmenting, recognizing, and captioning anything. Unlike SAM, we aim to build a versatile region representation in the wild via →

unified model segmentation captioning visual prompting region representation

发现论文，激发创造

使用文本和图像提示进行图像分割

本文提出了一种基于文本或图像提示产生图像分割结果的模型，使用 CLIP 模型并引入 Transformer-based decoder 实现了对于任意提示的图像分割。经过对短语切割数据集进行扩展训练，该模型可以生成二进制的分割结果。我们发现该模型不仅可适应于三种标准的分割任务，而且可以适应于任何文本或图像提示的二进制分割任务。

Dec, 2021

使用适应掩码的 CLIP 进行开放词汇语义分割

该论文提出了一种针对开放词汇的语义分割方法，即通过预训练模型再特定训练样本上的微调和修正，来解决预训练模型在遮蔽图像上的效果问题，从而提高模型的泛化能力，并通过遮蔽抽取方法有效地提高了语义分割的效果。

Oct, 2022

学习对呼叫分段任何模型

通过空间 - 语义提示学习有效的语义和空间提示，优化了 SAM 模型在图像分割性能上的效果。

Jan, 2024

PA-SAM：高质量图像分割的指示适配器 SAM

通过引入一种新型的提示驱动适配器（PA-SAM）到 Segment Anything Model (SAM) 中，提高了原始 SAM 的分割掩模质量，通过在稀疏和密集提示级别上优化面罩解码器功能，从图像中提取详细信息，实验结果表明 PA-SAM 在高质量、零样本和开放集分割方面优于其他基于 SAM 的方法。

Jan, 2024

MaskSAM：面向医学图像分割的自动提示 SAM 与掩码分类

提出了 MaskSAM，这是一种适用于医学图像分割的新型无需提示的 SAM 适应框架，通过与 SAM 中的图像编码器结合设计了一个提示生成器，生成一组辅助分类器令牌、辅助二进制掩模和辅助边界框，以解决额外提示的要求，同时利用 3D 深度卷积适配器和 3D 深度 MLP 适配器使预训练的 2D SAM 模型提取 3D 信息并适应 3D 医学图像。我们的方法在 AMOS2022 上取得了最先进的性能，Dice 系数为 90.52%，相比 nnUNet 提高了 2.7%。在 ACDC 和 Synapse 数据集上，我们的方法分别超过了 nnUNet 1.7% 和 1.0%。

Mar, 2024

高质量分割任何事物

提出了一种名为 HQ-SAM 的模型，该模型在保持 Segment Anything Model（SAM）原始 zero-shot 设计，高效性和推广性的同时，赋予 SAM 精确切分任何对象的能力，通过深度融合输入的不同特征并引入可学习的高质量输出 Token，有效提高了遮罩细节。在多种下游任务的 9 个不同分割数据集中展示 HQ-SAM 的有效性，其中有 7 个采用了零 - shot 转移协议进行评估。

Jun, 2023

通过图像记号进行语义提示的持续学习

我们介绍了一种名为 I-Prompt 的方法，它是一种与任务无关的方法，专注于图像令牌的视觉语义信息，以消除任务预测，并在四个基准测试中达到了竞争性能，同时与最先进的方法相比显著减少了训练时间。通过大量实验，我们证明了我们的方法在各种场景下的优越性。

Mar, 2024

SAM 中松弛图像特定提示要求：单个通用提示用于分割伪装物体

通过使用文本提示来生成视觉提示并自适应测试时，本文介绍了一种基于广义任务描述的通用型对象检测方法，名为 Generalizable SAM（GenSAM）。实验证明，GenSAM 在三个基准测试上优于点标注方法，并达到了与涂鸦标注方法相当的结果。

Dec, 2023

PosSAM: 全景开放词汇片段检测

提出了一种开放词汇的全景分割模型，通过端到端框架有机地结合了 Segment Anything Model (SAM) 和视觉 - 语言 CLIP 模型的优势。通过使用局部判别汇聚模块（LDP），克服了 SAM 的局限性，并引入了面向掩膜的选择集成算法（MASE）来自适应地提高生成掩膜的质量，从而在多个数据集上展示了很强的泛化性能，并且在开放词汇全景分割方法方面取得了显著的改进。

Mar, 2024

SAM-PD: 通过提示去噪，在跟踪和分割视频中，SAM 能带我们走多远

本文探讨了将 Segment Anything Model（SAM）应用于视频对象跟踪和分割任务的潜力，通过使用多种 prompt 和引入基于点的优化阶段，实现了在三个数据集上对比性能相当的视频对象 / 实例分割任务，该方法为基于 SAM 的后续应用赋予了跟踪能力。

Mar, 2024