识别任何事物:一款强大的图像标记模型
通过在图像标注训练框架中注入语义概念,我们引入了 Recognize Anything Plus Model~(RAM++),一种具有强大开放集识别能力的基础图像识别模型。RAM++ 不仅在识别预定义的类别方面表现出色,而且在开放集类别的识别能力方面也有显著增强。
Oct, 2023
本研究旨在无缝地将 Segment Anything Model (SAM) 与开放词汇目标检测器集成在一起,引入了 SideFormer 模块和开放区域建议网络 (Open-set RPN) 等创新方法,以提升 SAM 在检测任意对象和开放词汇识别方面的性能。Sambor 在 COCO 和 LVIS 等基准测试中展现出卓越的零样本性能,并与之前的最先进方法竞争力十足,旨在为 SAM 赋予识别多样化对象类别和促进视觉基础模型的开放词汇学习提供有意义的努力。
Dec, 2023
提出了一种方法,能够高效地为 Segment Anything Model (SAM) 添加生成区域描述的功能,并且通过引入轻量级的基于查询的特征混合器使区域特征与语言模型的嵌入空间对齐,以便进行后续的描述生成。该方法具有小的可训练参数数量,计算量少、内存使用少和通信带宽少的特点,因此训练速度快且可扩展。通过先在目标检测和分割任务上进行弱监督预训练以解决区域描述数据稀缺问题。该方法的优越性得到了广泛的实验证明,并对每个设计选择进行了验证。本研究在扩展区域描述数据和探索为 SAM 增加区域语义方面具有重要意义。
Dec, 2023
本研究介绍了一种用于自动化少样本语义分割的结构化框架,利用 Segment Anything Model(SAM)模型,并借助先前引导的掩模生成粗略像素级提示,以获得更高效的语义可辨别分割结果,实验证明该方法在 DLRSD 数据集上优于其他可用的少样本方法。
Nov, 2023
通过对八个公开数据集的实证研究,揭示了参考表达理解 (REC) 框架在特定领域中存在的预测错误问题,并提出了一种简单的策略来减轻这些错误,进而改进了基于 REC 的检测和自动分割,同时报告了在多个专业领域中使用 SAM 技术进行分割的性能显著提高和节省注释时间。
Jun, 2024
通过引入 Semantic-SAM,我们提出了一种通用的图像分割模型,能够以任意所需的细粒度对任何物体进行分割和识别,具备语义感知和细粒度丰富性,实验证明我们的模型成功实现了语义感知和细粒度丰富性。
Jul, 2023
研究了针对视觉任务开发的第一个基础模型,称为 Segment Anything Model(SAM)。SAM 可以基于便宜的输入提示,如一个或多个点、边界框或掩码,在输入的图像中分割对象。作者在大量的视觉基准任务中研究了 SAM 的零样本图像分割准确性,并发现 SAM 通常实现了与目标任务上进行了训练的视觉模型类似或有时超过其识别精度。他们检查了 SAM 在多样化、广泛研究的基准任务集上的表现。然而,作者还研究了 SAM 在航空图像问题中的表现,他们发现虽然 SAM 在航空图像上通常表现良好,但在某些情况下由于航空图像和目标对象的独特特征而失败。
Apr, 2023
该论文介绍了将 CLIP 和 Segment Anything Model(SAM)集成到统一框架中的深入研究,提出了基于 SAM 的 Open-Vocabulary SAM 模型,实现了同时交互分割和识别的功能,并通过知识转移模块 SAM2CLIP 和 CLIP2SAM 进行知识转移,显著优于简单组合 SAM 和 CLIP 的基准线。此外,通过图像分类数据训练,我们的方法可以分割和识别大约 22,000 个类别。
Jan, 2024
本研究旨在将 Meta AI 的创新图像分割模型 Segment Anything Model(SAM)应用于遥感图像分析领域,特别是处理来自不同地理背景的航空和轨道影像,实现 SAM 在遥感影像处理中的潜力。
Jun, 2023
本文提出一种迭代匹配循环注意力存储(IMRAM)的方法,用于捕捉图像和文本之间的细粒度对应关系,表现出了最先进的性能。
Mar, 2020