以低延迟、高质量和多样化提示的方式重新思考交互式图像分割
本文提出了一种基于文本或图像提示产生图像分割结果的模型,使用CLIP模型并引入Transformer-based decoder实现了对于任意提示的图像分割。经过对短语切割数据集进行扩展训练,该模型可以生成二进制的分割结果。我们发现该模型不仅可适应于三种标准的分割任务,而且可以适应于任何文本或图像提示的二进制分割任务。
Dec, 2021
该论文提出了一个简单但高效的视觉提示统一变压器,利用更深入的交互来提高图像分割性能,并使用高斯映射生成一个统一的一维向量来捕获用户的意图,并利用用户反馈逐渐改进候选语义特征,从而逐步提高图像分割性能。
Jun, 2023
我们介绍了一种新颖的范式及其第一个模型:自动与交互式分割模型(AI-SAM)。在这个范式中,我们对提示品质进行了全面分析,并引入了创新的自动与交互式提示器(AI-Prompter),它在自动生成初始点提示的同时接受额外的用户输入。我们的实验结果证明了AI-SAM在自动设置下的有效性,实现了最先进的性能。更重要的是,它提供了灵活性以整合额外的用户提示,从而进一步提升性能。项目页面可在链接提供的URL中找到。
Dec, 2023
通过使用学习到的视觉提示,我们的工作研究了在少样本情况下,通过对Transformer解码器进行提示,来提高普适少样本分割(GFSS)任务的效果。我们提出了一种利用少量样本学习视觉提示的方法,通过这些学习到的视觉提示,我们可以对多尺度Transformer解码器进行提示,以便实现准确的密集预测。此外,我们引入了一种单向因果关注机制,用于连接通过少样本学习到的新提示和通过大量数据学习到的基础提示,从而提升新提示的质量而不损害基础类别的性能。总体而言,这种提示形式帮助我们在两个不同的基准数据集上实现了GFSS的最先进性能:COCO-$20^i$和Pascal-$5^i$,而无需进行测试时间的优化或传导。此外,我们还使用未标记的测试数据进行测试时间的优化,以改进这些视觉提示,我们称之为传导提示调优(transductive prompt tuning)。
Apr, 2024
FocSAM通过Dynamic Window Multi-head Self-Attention和Pixel-wise Dynamic ReLU的优化来提高Segment Anything Model (SAM)在交互式分割方面的性能,使其与现有的分割质量最先进的方法相匹配,但只需使用该方法推理时间的约5.6%。
May, 2024
本研究解决了现有分割模型在处理提示信息与图像结合时的低效和信息提取不足的问题。提出的SAM-REF框架通过两阶段的细化过程,实现了图像与提示的全局和局部有效整合,结合了早期结合的精确性与晚期结合的高效性。实验结果表明,该方法在复杂场景的多次交互中表现出卓越的有效性和高效性,超越了当前的先进模型。
Aug, 2024
本研究针对现有交互分割模型在图像与提示有效结合上的不足,提出了一种全新的SAM-REF双阶段精炼框架。通过将图像和提示的全局与局部信息进行高效整合,研究显示该方法在复杂情况下的分割质量优于当前最优模型,且保持了高效性。
Aug, 2024
本研究解决了现有图像分割任务中自动化视觉提示与人类提示之间的理解不足问题。通过引入PointPrompt数据集和一系列基准任务,作者展示了人类提示的表现比自动化策略高出约29%,并识别出影响提示性能的关键因素。此外,采用微调方法可使自动化策略的性能提高最多68%。
Oct, 2024
本研究解决了自动视觉提示策略在图像分割任务中相较于人类提示的适用性不足及其在细调过程中的效果未被探索的问题。研究结果表明,人类提示的分割得分比自动策略高出约29%,并且细调自动方法可提高其表现多达68%。此研究不仅揭示人类与自动提示之间的差距,还提出了通过改进视觉提示设计来缩小这一差距的潜在方向。
Oct, 2024