基于实例的 SAM: 为多样化视觉任务构建开放世界模型

Jan, 2024

基于实例的 SAM: 为多样化视觉任务构建开放世界模型

Grounded SAM: Assembling Open-World Models for Diverse Visual Tasks

Tianhe Ren, Shilong Liu, Ailing Zeng, Jing Lin, Kunchang Li...

TL;DR引入地面 SAM，使用地面化 DINO 作为开放目标检测器并结合分段任何模型（SAM），实现基于任意文本输入的任何区域的检测和分割，并打开了连接各种视觉模型的大门。

Abstract

We introduce grounded sam, which uses grounding dino as an open-set object detector to combine with the segment anything model (SAM). This

grounded sam grounding dino segment anything model open-set object detector vision models

发现论文，激发创造

自动图像数据标注的分段模型：基于 Grounding DINO 的文本提示的实证研究

通过对八个公开数据集的实证研究，揭示了参考表达理解 (REC) 框架在特定领域中存在的预测错误问题，并提出了一种简单的策略来减轻这些错误，进而改进了基于 REC 的检测和自动分割，同时报告了在多个专业领域中使用 SAM 技术进行分割的性能显著提高和节省注释时间。

Jun, 2024

关于区分任何模型（SAM）的调查：视觉基础模型遇见促进工程

该文通过第一次全面调查介绍了受到重大关注的 Meta AI Research 开发的 Segment anything model（SAM）的性能表现和多种应用情况，并呼吁读者对该模型进行新的研究以促进其进一步发展。

May, 2023

从空间中分割任何物体？

研究了针对视觉任务开发的第一个基础模型，称为 Segment Anything Model（SAM）。SAM 可以基于便宜的输入提示，如一个或多个点、边界框或掩码，在输入的图像中分割对象。作者在大量的视觉基准任务中研究了 SAM 的零样本图像分割准确性，并发现 SAM 通常实现了与目标任务上进行了训练的视觉模型类似或有时超过其识别精度。他们检查了 SAM 在多样化、广泛研究的基准任务集上的表现。然而，作者还研究了 SAM 在航空图像问题中的表现，他们发现虽然 SAM 在航空图像上通常表现良好，但在某些情况下由于航空图像和目标对象的独特特征而失败。

Apr, 2023

提升分段通用模型以实现开放词汇学习

本研究旨在无缝地将 Segment Anything Model (SAM) 与开放词汇目标检测器集成在一起，引入了 SideFormer 模块和开放区域建议网络 (Open-set RPN) 等创新方法，以提升 SAM 在检测任意对象和开放词汇识别方面的性能。Sambor 在 COCO 和 LVIS 等基准测试中展现出卓越的零样本性能，并与之前的最先进方法竞争力十足，旨在为 SAM 赋予识别多样化对象类别和促进视觉基础模型的开放词汇学习提供有意义的努力。

Dec, 2023

SAM3D：基于 Segment Anything 模型的零样本三维物体检测

本研究旨在将基础模型的能力发挥在 3D 视觉任务中，在通过 SAM 提出的 BEV 流程管道构建的基础上，通过提高零样例能力实现 3D 物体检测，将其应用于 Waymo 开放数据集，展示其可行性。

Jun, 2023

基于大视觉模型的自引导远感图像少样本语义分割

本研究介绍了一种用于自动化少样本语义分割的结构化框架，利用 Segment Anything Model（SAM）模型，并借助先前引导的掩模生成粗略像素级提示，以获得更高效的语义可辨别分割结果，实验证明该方法在 DLRSD 数据集上优于其他可用的少样本方法。

Nov, 2023

开放词汇 SAM3D：理解任何三维场景

OV-SAM3D 是一个通用框架，用于不需要训练即可理解任何 3D 场景的开放词汇三维场景理解，通过使用 Segment Anything Model (SAM) 生成超点并通过 Recognize Anything Model (RAM) 的开放标签和操作表，结合超点和分割掩模生成最终的 3D 实例，经过对 ScanNet200 和 nuScenes 数据集的实证评估，我们的方法在未知的开放世界环境中超越了现有的开放词汇方法。

May, 2024

基于文本引导的视觉基础模型的遥感图像语义分割

本研究集中于遥感领域，通过利用多个基础模型来促进远程 sensing 图像语义分割任务。我们的实验结果表明，该方法在几个广泛使用的远程 sensing 数据集上具有很高的准确性。

Apr, 2023

开放词汇 SAM：交互式地分段和识别两万个类别

该论文介绍了将 CLIP 和 Segment Anything Model（SAM）集成到统一框架中的深入研究，提出了基于 SAM 的 Open-Vocabulary SAM 模型，实现了同时交互分割和识别的功能，并通过知识转移模块 SAM2CLIP 和 CLIP2SAM 进行知识转移，显著优于简单组合 SAM 和 CLIP 的基准线。此外，通过图像分类数据训练，我们的方法可以分割和识别大约 22,000 个类别。

Jan, 2024

自适应低秩适应性分区对显著目标检测的改进

基于深度学习中内在的低秩结构，我们提出了一种创新的方法，通过自适应微调 Segment Anything Model (SAM) 来实现显著目标检测，通过在五个具有挑战性的 RGB 基准数据集上进行全面的定性和定量评估，证明了我们方法的卓越性能，超越了最先进的方法。

Aug, 2023