以低延迟、高质量和多样化提示的方式重新思考交互式图像分割
本文提出了一种基于文本或图像提示产生图像分割结果的模型,使用 CLIP 模型并引入 Transformer-based decoder 实现了对于任意提示的图像分割。经过对短语切割数据集进行扩展训练,该模型可以生成二进制的分割结果。我们发现该模型不仅可适应于三种标准的分割任务,而且可以适应于任何文本或图像提示的二进制分割任务。
Dec, 2021
利用下游分割任务优化人工提供的提示,提出了针对 Segment Anything Model(SAM)等基础模型的即插即用的 Prompt 优化技术(SAMPOT),在胸部 X 射线图像的肺分割中取得了显著的改进,并希望此工作能在自动视觉提示调整的新兴领域引起进一步研究。
Oct, 2023
本文研究了使用交互式医学图像分割范例中的 SAM 零 - shot 能力增强医学图像分割的潜力,并提出了一种叫做 TEPO 的自适应提示形式优化框架来解决人类专家支持下的 SAM 脆弱性问题,并通过强化学习来进一步提高 SAM 在 MIS 上的零 - shot 能力。在标准基准 BraTS2020 上的数值实验表明,学习到的 TEPO 代理可以进一步增强 SAM 在 MIS 上的零 - shot 能力。
Jun, 2023
我们介绍了一种新颖的范式及其第一个模型:自动与交互式分割模型(AI-SAM)。在这个范式中,我们对提示品质进行了全面分析,并引入了创新的自动与交互式提示器(AI-Prompter),它在自动生成初始点提示的同时接受额外的用户输入。我们的实验结果证明了 AI-SAM 在自动设置下的有效性,实现了最先进的性能。更重要的是,它提供了灵活性以整合额外的用户提示,从而进一步提升性能。项目页面可在链接提供的 URL 中找到。
Dec, 2023
通过使用图像概念传达的视觉概念,本研究首次探索了使用基础模型进行开放世界理解的方法,提出了一种名为图像提示分割(IPSeg)的新方法,该方法利用了图像提示技术,通过提取强大的特征,并通过新颖的特征交互模块将输入图像的表示与提示图像的表示进行匹配,以生成突出显示输入图像中目标对象的点提示,并进一步利用生成的点提示来指导 Segment Anything Model 对输入图像中的目标对象进行分割,从而消除了繁琐的训练过程,提供更高效和可扩展的解决方案。
Oct, 2023
通过对交互提示的工程化,我们评估了使用不同类型提示的医学图像交互分割模型在测试时间的可变性,以期找到一种简单高效的最佳提示选择方法。
Nov, 2023
我们提出了一种无需训练的提示跟踪框架,将稀疏点和框跟踪相结合,采用交叉循环时空模块从多次交互中自适应地聚合引用信息,实现了在流行的 VOS 数据集上稳定的零样本视频分割结果,保持了性能和交互时间之间的良好权衡。
Jun, 2024
SEEM 是一个可提示、互动的模型,可以同时将图像中的所有内容分割成多个部分,它具有多样性、组合性、互动性和语义感知等特点。
Apr, 2023
本文介绍了一种通用的视觉上下文提示框架,以支持涂鸦、方框和点等各种提示类型,并进一步改进以支持任意数量的上下文。通过在 COCO 和 SA-1B 上进行联合训练,我们的模型在 COCO 上达到 57.7 PQ,在 ADE20K 上达到 23.2 PQ。
Nov, 2023