EVF-SAM: 文本引导片段任意模型的早期视觉语言融合

Jun, 2024

EVF-SAM: 文本引导片段任意模型的早期视觉语言融合

EVF-SAM: Early Vision-Language Fusion for Text-Prompted Segment Anything Model

Yuxuan Zhang, Tianheng Cheng, Rui Hu, ei Liu, Heng Liu...

TL;DR利用多模态提示和视觉 - 语言模型，本文介绍了一种简单而有效的基于早期视觉 - 语言融合的提及分割方法，EVF-SAM，它能以较少的参数获得比以往的大型多模态模型更好的性能，用于提高 Segment Anything Model (SAM) 在提及分割任务上的表现。

Abstract

segment anything model (SAM) has attracted widespread attention for its superior interactive segmentation capabilities with visual prompts while lacking further exploration of text prompts. In this paper, we empirically investigate what →

segment anything model text prompt encoders early vision-language fusion-based sam multimodal prompts vision-language models

发现论文，激发创造

RefSAM: 为引用视频目标分割而高效地调整任意分割模型

此篇论文介绍了 RefSAM 模型，该模型利用来自不同视觉语言模态和时间戳的多视角信息，首次探索 SAM 在 RVOS 领域的潜力。通过在参考表达中应用轻量级跨模态 MLP 来增强跨模态学习，并采用参数高效的调整策略，成功对齐并融合了语言和视觉特征。最终在实验中，该模型优于现有方法。

Jul, 2023

VRP-SAM：具有视觉参考提示的 SAM

提出了一种新颖的视觉参考提示（VRP）编码器，用于支持分段任意模型（SAM）利用标注的参考图像作为分段提示，形成 VRP-SAM 模型，具有广泛的适用性和强大的泛化能力。

Feb, 2024

开放词汇 SAM：交互式地分段和识别两万个类别

该论文介绍了将 CLIP 和 Segment Anything Model（SAM）集成到统一框架中的深入研究，提出了基于 SAM 的 Open-Vocabulary SAM 模型，实现了同时交互分割和识别的功能，并通过知识转移模块 SAM2CLIP 和 CLIP2SAM 进行知识转移，显著优于简单组合 SAM 和 CLIP 的基准线。此外，通过图像分类数据训练，我们的方法可以分割和识别大约 22,000 个类别。

Jan, 2024

EviPrompt：医学图像中基于证据的无需训练的提示生成方法

基于医学图像的相似性，引入了一种名为 EviPrompt 的新型无需训练的证据提示生成方法，用于克服在医学图像分割中，专业知识干预和自然图像与医学图像之间领域差异方面所存在的问题。该方法仅需要一个单一参考图像 - 注释对，使其成为减少了大量标注和计算资源需求的无需训练解决方案，同时通过不依赖于临床专家互动的基于不确定性估计的证据方法和人类先验信息，有效地减小了自然图像与医学图像之间的领域差距，提高了 SAM 在医学场景中的适用性和使用价值。经过广泛的任务和模态评估，EviPrompt 表现出了在医学图像分割方面高效而健壮的特点。

Nov, 2023

SAM-CLIP：融合视觉基础模型实现语义和空间理解

我们提出了一种简单的方法，将视觉基础模型（如 CLIP 和 Segment Anything Model）高效地合并成一个统一的模型，以便于边缘设备应用，并能够在广泛的视觉任务中学习富含定位和语义特征的更丰富的视觉表示，同时在零样本语义分割方面取得了新的最先进结果。

Oct, 2023

自训练的大型视觉模型用于少样本医学图像分割

通过对 SAM 的嵌入空间进行自我提示，我们提出了一种在医学视觉应用中自我提示的新视角，通过一个简单而有效的线性像素分类器，保留了大模型的编码能力、其解码器的上下文信息，并利用其互动性，我们在多个数据集上取得了竞争性的结果（与使用少量图像微调掩模解码器相比，改进超过 15%）

Aug, 2023

提升分段通用模型以实现开放词汇学习

本研究旨在无缝地将 Segment Anything Model (SAM) 与开放词汇目标检测器集成在一起，引入了 SideFormer 模块和开放区域建议网络 (Open-set RPN) 等创新方法，以提升 SAM 在检测任意对象和开放词汇识别方面的性能。Sambor 在 COCO 和 LVIS 等基准测试中展现出卓越的零样本性能，并与之前的最先进方法竞争力十足，旨在为 SAM 赋予识别多样化对象类别和促进视觉基础模型的开放词汇学习提供有意义的努力。

Dec, 2023

AV-SAM: 模型将任何物体分割与视听定位相结合

本文提出了基于 SAM 模型的简单而有效的音频 - 视觉定位和分割框架 AV-SAM，可以生成对应于音频的听觉对象掩模，实现像声音定位和分割等视听任务。

May, 2023

如何高效地将大型分割模型（SAM）适应于医学图像

本文介绍了一种针对医学影像的零样本分割模型 Segment Anything (SAM)，通过细调轻量级任务特定的 ViT 预测头来提高其在医学影像数据集上的性能。

Jun, 2023

PosSAM: 全景开放词汇片段检测

提出了一种开放词汇的全景分割模型，通过端到端框架有机地结合了 Segment Anything Model (SAM) 和视觉 - 语言 CLIP 模型的优势。通过使用局部判别汇聚模块（LDP），克服了 SAM 的局限性，并引入了面向掩膜的选择集成算法（MASE）来自适应地提高生成掩膜的质量，从而在多个数据集上展示了很强的泛化性能，并且在开放词汇全景分割方法方面取得了显著的改进。

Mar, 2024