从 CLIP 中提取无标签稠密特征
本文提出了一种名为 CLIP-DIY 的开放词汇语义分割方法,该方法利用现有的无监督目标定位方法,直接在不同尺度的补丁上利用 CLIP 的分类能力,并通过无监督的目标定位方法指导分割过程,从而在 PASCAL VOC 上获得了最新的零样本语义分割结果,并在 COCO 上表现与最佳方法相当。
Sep, 2023
本文提出了一种框架,通过使用 CLIP 的预训练知识的隐式和显式方法来进行密集预测,是一种模型不可知的方法,可应用于任意密集预测系统和各种预训练视觉 Backbones,包括 CLIP 模型和 ImageNet 预训练模型,实证实验表明,我们的方法在语义分割,目标检测和实例分割任务上具有优越的性能。
Dec, 2021
本研究针对 CLIP 在像素级开放词汇学习任务中面临的输入像素误识别问题,提出了一种名为 TagCLIP 的改进方法,通过引入一种名为 trusty token 的可信标记,成功提高了现有模型的泛化容量。针对 PASCAL VOC 2012 和 COCO-Stuff 164K 两大数据集,TagCLIP 对于未知分类的 IOU 值均有显著提升。
Apr, 2023
该论文提出了一种针对开放词汇的语义分割方法,即通过预训练模型再特定训练样本上的微调和修正,来解决预训练模型在遮蔽图像上的效果问题,从而提高模型的泛化能力,并通过遮蔽抽取方法有效地提高了语义分割的效果。
Oct, 2022
我们提出了一种零样本开放词汇语义分割方法,无需任何注释,通过从自监督特征中提取出的定位先验来局部改进密集的 MaskCLIP 特征,从而显著提升 MaskCLIP 的性能并产生平滑的输出。
Dec, 2023
提出了一种名为 CLIPTeacher 的新学习框架,用于各种基于像素分类的分割模型,不引入任何显式的掩码建议者或更改 CLIP 的结构,并利用已知区域和忽略区域来取得较大的性能提升。
Oct, 2023
通过引入新的自相关自注意力(CSA)机制,增强了 CLIP 在语义分割方面的潜力,并且在零样本 mIoU 方面明显优于现有的 SoTA 结果和原始的 CLIP。
Dec, 2023
本文提出了一种基于 CLIP 的零样本语义分割方法 ZegCLIP,将其从图像级别扩展到像素级别,通过三种简单而有效的设计处理过拟合问题,具有更好的泛化能力和速度优势。
Dec, 2022
本文提出了一个 CLIP-based 的模型,名为 SegCLIP,以无注释的方式实现了开放式词汇语义分割,其主要思想是通过训练文本 - 图像对来聚集有可学习中心的补丁形成语义区域。文中还在被屏蔽掉的补丁上提出了一种重构损失和基于超像素的 KL 损失与伪标签相结合来增强视觉表征,实验结果表明,该模型在与基线的比较中,在 PASCAL VOC 2012(+1.4% mIoU)、PASCAL Context(+2.4% mIoU)和 COCO(+5.6% mIoU)上实现了相当或更高的分割精度。
Nov, 2022