基于实例的 SAM: 为多样化视觉任务构建开放世界模型
通过对八个公开数据集的实证研究,揭示了参考表达理解 (REC) 框架在特定领域中存在的预测错误问题,并提出了一种简单的策略来减轻这些错误,进而改进了基于 REC 的检测和自动分割,同时报告了在多个专业领域中使用 SAM 技术进行分割的性能显著提高和节省注释时间。
Jun, 2024
该文通过第一次全面调查介绍了受到重大关注的 Meta AI Research 开发的 Segment anything model(SAM)的性能表现和多种应用情况,并呼吁读者对该模型进行新的研究以促进其进一步发展。
May, 2023
研究了针对视觉任务开发的第一个基础模型,称为 Segment Anything Model(SAM)。SAM 可以基于便宜的输入提示,如一个或多个点、边界框或掩码,在输入的图像中分割对象。作者在大量的视觉基准任务中研究了 SAM 的零样本图像分割准确性,并发现 SAM 通常实现了与目标任务上进行了训练的视觉模型类似或有时超过其识别精度。他们检查了 SAM 在多样化、广泛研究的基准任务集上的表现。然而,作者还研究了 SAM 在航空图像问题中的表现,他们发现虽然 SAM 在航空图像上通常表现良好,但在某些情况下由于航空图像和目标对象的独特特征而失败。
Apr, 2023
本研究旨在无缝地将 Segment Anything Model (SAM) 与开放词汇目标检测器集成在一起,引入了 SideFormer 模块和开放区域建议网络 (Open-set RPN) 等创新方法,以提升 SAM 在检测任意对象和开放词汇识别方面的性能。Sambor 在 COCO 和 LVIS 等基准测试中展现出卓越的零样本性能,并与之前的最先进方法竞争力十足,旨在为 SAM 赋予识别多样化对象类别和促进视觉基础模型的开放词汇学习提供有意义的努力。
Dec, 2023
本研究旨在将基础模型的能力发挥在 3D 视觉任务中,在通过 SAM 提出的 BEV 流程管道构建的基础上,通过提高零样例能力实现 3D 物体检测,将其应用于 Waymo 开放数据集,展示其可行性。
Jun, 2023
本研究介绍了一种用于自动化少样本语义分割的结构化框架,利用 Segment Anything Model(SAM)模型,并借助先前引导的掩模生成粗略像素级提示,以获得更高效的语义可辨别分割结果,实验证明该方法在 DLRSD 数据集上优于其他可用的少样本方法。
Nov, 2023
OV-SAM3D 是一个通用框架,用于不需要训练即可理解任何 3D 场景的开放词汇三维场景理解,通过使用 Segment Anything Model (SAM) 生成超点并通过 Recognize Anything Model (RAM) 的开放标签和操作表,结合超点和分割掩模生成最终的 3D 实例,经过对 ScanNet200 和 nuScenes 数据集的实证评估,我们的方法在未知的开放世界环境中超越了现有的开放词汇方法。
May, 2024
本研究集中于遥感领域,通过利用多个基础模型来促进远程 sensing 图像语义分割任务。我们的实验结果表明,该方法在几个广泛使用的远程 sensing 数据集上具有很高的准确性。
Apr, 2023
该论文介绍了将 CLIP 和 Segment Anything Model(SAM)集成到统一框架中的深入研究,提出了基于 SAM 的 Open-Vocabulary SAM 模型,实现了同时交互分割和识别的功能,并通过知识转移模块 SAM2CLIP 和 CLIP2SAM 进行知识转移,显著优于简单组合 SAM 和 CLIP 的基准线。此外,通过图像分类数据训练,我们的方法可以分割和识别大约 22,000 个类别。
Jan, 2024
基于深度学习中内在的低秩结构,我们提出了一种创新的方法,通过自适应微调 Segment Anything Model (SAM) 来实现显著目标检测,通过在五个具有挑战性的 RGB 基准数据集上进行全面的定性和定量评估,证明了我们方法的卓越性能,超越了最先进的方法。
Aug, 2023