识别任何事物：一款强大的图像标记模型

Jun, 2023

识别任何事物：一款强大的图像标记模型

Recognize Anything: A Strong Image Tagging Model

Youcai Zhang, Xinyu Huang, Jinyu Ma, Zhaoyang Li, Zhaochuan Luo...

TL;DR通过无需注释的图像标记，自动文本语义解析和数据引擎等四个关键步骤，我们构建了一种名为 “Recognize Anything Model（RAM）” 的强基础模型，用于图像标记，并在许多基准测试中评估其标记能力。

Abstract

We present the recognize anything model (RAM): a strong foundation model for image tagging. RAM can recognize any common category with high accuracy. RAM introduces a new paradigm for →

recognize anything model image tagging annotation-free image tags automatic annotation zero-shot performance

发现论文，激发创造

为开放集识别中的图像标记引入语义概念

通过在图像标注训练框架中注入语义概念，我们引入了 Recognize Anything Plus Model~(RAM++)，一种具有强大开放集识别能力的基础图像识别模型。RAM++ 不仅在识别预定义的类别方面表现出色，而且在开放集类别的识别能力方面也有显著增强。

Oct, 2023

提升分段通用模型以实现开放词汇学习

本研究旨在无缝地将 Segment Anything Model (SAM) 与开放词汇目标检测器集成在一起，引入了 SideFormer 模块和开放区域建议网络 (Open-set RPN) 等创新方法，以提升 SAM 在检测任意对象和开放词汇识别方面的性能。Sambor 在 COCO 和 LVIS 等基准测试中展现出卓越的零样本性能，并与之前的最先进方法竞争力十足，旨在为 SAM 赋予识别多样化对象类别和促进视觉基础模型的开放词汇学习提供有意义的努力。

Dec, 2023

分割和标注任何东西

提出了一种方法，能够高效地为 Segment Anything Model (SAM) 添加生成区域描述的功能，并且通过引入轻量级的基于查询的特征混合器使区域特征与语言模型的嵌入空间对齐，以便进行后续的描述生成。该方法具有小的可训练参数数量，计算量少、内存使用少和通信带宽少的特点，因此训练速度快且可扩展。通过先在目标检测和分割任务上进行弱监督预训练以解决区域描述数据稀缺问题。该方法的优越性得到了广泛的实验证明，并对每个设计选择进行了验证。本研究在扩展区域描述数据和探索为 SAM 增加区域语义方面具有重要意义。

Dec, 2023

基于大视觉模型的自引导远感图像少样本语义分割

本研究介绍了一种用于自动化少样本语义分割的结构化框架，利用 Segment Anything Model（SAM）模型，并借助先前引导的掩模生成粗略像素级提示，以获得更高效的语义可辨别分割结果，实验证明该方法在 DLRSD 数据集上优于其他可用的少样本方法。

Nov, 2023

自动图像数据标注的分段模型：基于 Grounding DINO 的文本提示的实证研究

通过对八个公开数据集的实证研究，揭示了参考表达理解 (REC) 框架在特定领域中存在的预测错误问题，并提出了一种简单的策略来减轻这些错误，进而改进了基于 REC 的检测和自动分割，同时报告了在多个专业领域中使用 SAM 技术进行分割的性能显著提高和节省注释时间。

Jun, 2024

语义化 SAM：以任意粒度分段和识别任何事物

通过引入 Semantic-SAM，我们提出了一种通用的图像分割模型，能够以任意所需的细粒度对任何物体进行分割和识别，具备语义感知和细粒度丰富性，实验证明我们的模型成功实现了语义感知和细粒度丰富性。

Jul, 2023

从空间中分割任何物体？

研究了针对视觉任务开发的第一个基础模型，称为 Segment Anything Model（SAM）。SAM 可以基于便宜的输入提示，如一个或多个点、边界框或掩码，在输入的图像中分割对象。作者在大量的视觉基准任务中研究了 SAM 的零样本图像分割准确性，并发现 SAM 通常实现了与目标任务上进行了训练的视觉模型类似或有时超过其识别精度。他们检查了 SAM 在多样化、广泛研究的基准任务集上的表现。然而，作者还研究了 SAM 在航空图像问题中的表现，他们发现虽然 SAM 在航空图像上通常表现良好，但在某些情况下由于航空图像和目标对象的独特特征而失败。

Apr, 2023

开放词汇 SAM：交互式地分段和识别两万个类别

该论文介绍了将 CLIP 和 Segment Anything Model（SAM）集成到统一框架中的深入研究，提出了基于 SAM 的 Open-Vocabulary SAM 模型，实现了同时交互分割和识别的功能，并通过知识转移模块 SAM2CLIP 和 CLIP2SAM 进行知识转移，显著优于简单组合 SAM 和 CLIP 的基准线。此外，通过图像分类数据训练，我们的方法可以分割和识别大约 22,000 个类别。

Jan, 2024

遥感应用中的分段任意物模型 (SAM)：从零到一次拍摄

本研究旨在将 Meta AI 的创新图像分割模型 Segment Anything Model（SAM）应用于遥感图像分析领域，特别是处理来自不同地理背景的航空和轨道影像，实现 SAM 在遥感影像处理中的潜力。

Jun, 2023

IMRAM: 交替匹配循环注意力记忆模型用于跨模态图像 - 文本检索

本文提出一种迭代匹配循环注意力存储（IMRAM）的方法，用于捕捉图像和文本之间的细粒度对应关系，表现出了最先进的性能。

Mar, 2020