RAP-SAM:面向实时通用分割任何事物
本论文针对计算机视觉中处理高分辨率输入带来的高昂计算代价提出了使用基于 CNN 检测器结合实例分割进行图像分割的替代方案,实验结果表明该方法仅使用 SAM 作者发布的 1/50 数据集,便可在 50 倍的运行时速下实现与 SAM 方法基本相当的性能。
Jun, 2023
这篇研究论文讨论了 Segment Anything Model 在各个领域的表现及其未来发展前景,并提供了有助于未来研究活动的洞见,以完成通用分割任务。
Apr, 2023
研究了针对视觉任务开发的第一个基础模型,称为 Segment Anything Model(SAM)。SAM 可以基于便宜的输入提示,如一个或多个点、边界框或掩码,在输入的图像中分割对象。作者在大量的视觉基准任务中研究了 SAM 的零样本图像分割准确性,并发现 SAM 通常实现了与目标任务上进行了训练的视觉模型类似或有时超过其识别精度。他们检查了 SAM 在多样化、广泛研究的基准任务集上的表现。然而,作者还研究了 SAM 在航空图像问题中的表现,他们发现虽然 SAM 在航空图像上通常表现良好,但在某些情况下由于航空图像和目标对象的独特特征而失败。
Apr, 2023
FocSAM 通过 Dynamic Window Multi-head Self-Attention 和 Pixel-wise Dynamic ReLU 的优化来提高 Segment Anything Model (SAM) 在交互式分割方面的性能,使其与现有的分割质量最先进的方法相匹配,但只需使用该方法推理时间的约 5.6%。
May, 2024
本研究旨在利用 Vision Foundation Models(VFMs)的强大视觉识别能力,提高高分辨率遥感图像(RSIs)的变化检测,并将 VFMs 应用于 HR RSIs 的 CD 是首次的。
Sep, 2023
本文提出了一种称为 PerSAM 的、无需训练的个性化方法,该方法首先通过位置先验定位目标概念,然后通过三种技术 - 目标引导注意力、目标语义提示和级联后处理在其他图像或视频中对其进行分割,有效地适应 SAM 的私人使用。此外,我们还提出了一种高效的单次微调变体,PerSAM-F,以缓解掩模的歧义。我们构建了一个新的分割数据集 PerSeg,并在具有竞争性的性能的视频对象分割上测试了我们的方法。
May, 2023
提出了一种开放词汇的全景分割模型,通过端到端框架有机地结合了 Segment Anything Model (SAM) 和视觉 - 语言 CLIP 模型的优势。通过使用局部判别汇聚模块(LDP),克服了 SAM 的局限性,并引入了面向掩膜的选择集成算法(MASE)来自适应地提高生成掩膜的质量,从而在多个数据集上展示了很强的泛化性能,并且在开放词汇全景分割方法方面取得了显著的改进。
Mar, 2024
该文通过第一次全面调查介绍了受到重大关注的 Meta AI Research 开发的 Segment anything model(SAM)的性能表现和多种应用情况,并呼吁读者对该模型进行新的研究以促进其进一步发展。
May, 2023
由于高分辨率遥感卫星的发展,遥感相关研究工作获得了极大的便利。SAM 引入了一种普适的预训练模型用于图像分割任务,但是直接应用于遥感图像分割任务效果欠佳。为此,我们提出了 RSAM-Seg,即在 SAM 的基础上进行了适应性修改,消除了对手动干预提供提示的需求。在 SAM 的编码器部分的多头注意力块中,我们提出了 Adapter-Scale 和 Adapter-Feature 模块,它们旨在将高频图像信息和图像嵌入特征融入生成的图像引导提示中。在包括云检测、场地监测、建筑物检测和道路制图任务的四个不同遥感场景上进行了实验证明,RSAM-Seg 不仅改善了原始 SAM 和 U-Net 在云、建筑物、场地和道路场景中的效果,还突出了其作为辅助注释方法的潜力,可以识别某些数据集的真实值中的缺失区域。此外,在少样本情况下的表现也值得称赞,凸显了其在处理有限数据集时的潜力。
Feb, 2024
此篇论文介绍了 RefSAM 模型,该模型利用来自不同视觉语言模态和时间戳的多视角信息,首次探索 SAM 在 RVOS 领域的潜力。通过在参考表达中应用轻量级跨模态 MLP 来增强跨模态学习,并采用参数高效的调整策略,成功对齐并融合了语言和视觉特征。最终在实验中,该模型优于现有方法。
Jul, 2023