Jan, 2024

开放词汇 SAM:交互式地分段和识别两万个类别

TL;DR该论文介绍了将 CLIP 和 Segment Anything Model(SAM)集成到统一框架中的深入研究,提出了基于 SAM 的 Open-Vocabulary SAM 模型,实现了同时交互分割和识别的功能,并通过知识转移模块 SAM2CLIP 和 CLIP2SAM 进行知识转移,显著优于简单组合 SAM 和 CLIP 的基准线。此外,通过图像分类数据训练,我们的方法可以分割和识别大约 22,000 个类别。