基于基础模型的高性能小样本分割:实证研究
本文研究了在执行几次分割任务中进行推理的方式对性能产生了重要影响,并介绍了一种对查询图像进行转导推理的方法,通过优化包含交叉熵、Shannon熵和KL散度规则的新损失函数,实现了具有竞争力的性能,尤其适用于1-shot场景以及基于不同数据集的领域偏移。
Dec, 2020
本文提出了一种新颖的在few-shot segmentation模型中加入base learner的方法,通过使用伴随的base learner得到被忽略的对象并将其与meta learner的预测结果相结合,从而提高模型的泛化性能和分割准确率。实验结果表明,该方法具有良好的性能且在generalized FSS情况下也有很好的表现。
Mar, 2022
基于适配器机制提出了一种新的Few-Shot Segmentation(FSS)框架,设计了Prototype Adaptive Module (PAM)来提高FSS模型的性能和实现新的最先进结果。
Dec, 2023
跨领域少样本分割(CD-FSS)需要仅使用有限样本从不同领域中对新颖类别进行分割,论文发现通过fine-tuning阶段有效地在领域之间转移学习得到的元知识的必要性以及由于新颖类别样本稀缺导致朴素的fine-tuning存在过拟合风险,并提出了一种解决这一挑战的新型跨领域fine-tuning策略,通过设计双向少样本预测(BFP)和迭代少样本适配器(IFA)来降低过拟合风险并最大化利用稀疏的新颖类别样本的监督信号,实验证明该方法显著优于当前技术水平(+7.8%),验证了IFA能同时应对跨领域挑战和减轻过拟合问题。代码将提供。
Jan, 2024
在计算机视觉中,我们比较了四种著名的视觉基础模型(DINO V2,Segment Anything,CLIP,Masked AutoEncoders和在COCO数据集上预训练的ResNet50),发现DINO V2在各种数据集和适应方法上始终优于其他模型,突出了其在语义分割任务上的优越适应能力。此外,我们观察到各种适配器方法表现相似,强调了选择稳健特征提取器比适应技术本身的复杂性更为重要,这一发现揭示了在少样本语义分割情境中特征提取的关键作用。此研究不仅为少样本语义分割领域的视觉基础模型的比较性能提供宝贵见解,还强调了稳健特征提取器在该领域的重要性。
Jan, 2024
IFSENet是一种结合了few-shot分割和交互式分割概念的模型,通过接受点击输入的方式在支持图像和查询图像上生成遮罩,极大地减少了训练新类别分割模型所需的注释工作量。
Mar, 2024
现有的少样本分割方法主要关注原型特征生成和查询-支持匹配机制,本文提出了通用少样本分割方法(UniFSS),结合文本、掩膜、框和图像等多种引导模式,并利用大规模预训练视觉-语言模型,通过高级空间纠正和嵌入交互单元,解决了纯视觉匹配方法在面对类内外观多样性时遇到的语义歧义问题,实验证明UniFSS显著优于现有方法,其中弱注释的类感知框范式甚至超过了精细注释的掩膜范式。
Jul, 2024
本研究针对图像分割领域的现有研究不足之处,系统回顾了基础模型驱动的图像分割的最新进展与挑战。通过分析通用图像分割与可提示图像分割的研究,并深入探讨基础模型如CLIP和Stable Diffusion在图像分割中的应用,该综述为未来的研究方向提供了宝贵的见解和参考。研究结果显示,基础模型不仅显著提升了分割性能,还可开启深度学习中前所未有的分割能力。
Aug, 2024