ZegCLIP:面向零样本语义分割的 CLIP 自适应
提出了一种名为 CLIPTeacher 的新学习框架,用于各种基于像素分类的分割模型,不引入任何显式的掩码建议者或更改 CLIP 的结构,并利用已知区域和忽略区域来取得较大的性能提升。
Oct, 2023
本文提出了一种简单而有效的基线方法,将 CLIP 中的视觉语言知识在特征和输出层面上转移到点云编码器,从而在零样本点云语义分割中取得了显著的性能提升,并在无标注点云语义分割设置中取得了有希望的结果,展示了其在标签效率学习方面的巨大潜力。
Dec, 2023
基于预训练视觉 - 语言模型的 Cascade-CLIP 方法,在零样本语义分割任务中通过引入一系列独立解码器,以级联方式将多层次的视觉特征与文本嵌入对齐,取得了优秀的性能。
Jun, 2024
本文旨在探讨 Contrastive Language-Image Pre-training (CLIP) 在像素级密集预测,特别是语义分割方面的潜力,并以 MaskCLIP 为例证明了它在无需注释和微调的情况下可以产生令人满意的分割结果。通过添加伪标签和自训练,MaskCLIP + 甚至超过了 SOTA 的泛化零样本语义分割方法。
Dec, 2021
本研究针对 CLIP 在像素级开放词汇学习任务中面临的输入像素误识别问题,提出了一种名为 TagCLIP 的改进方法,通过引入一种名为 trusty token 的可信标记,成功提高了现有模型的泛化容量。针对 PASCAL VOC 2012 和 COCO-Stuff 164K 两大数据集,TagCLIP 对于未知分类的 IOU 值均有显著提升。
Apr, 2023
本文提出了一种名为 CLIP-DIY 的开放词汇语义分割方法,该方法利用现有的无监督目标定位方法,直接在不同尺度的补丁上利用 CLIP 的分类能力,并通过无监督的目标定位方法指导分割过程,从而在 PASCAL VOC 上获得了最新的零样本语义分割结果,并在 COCO 上表现与最佳方法相当。
Sep, 2023
本文提出了一个 CLIP-based 的模型,名为 SegCLIP,以无注释的方式实现了开放式词汇语义分割,其主要思想是通过训练文本 - 图像对来聚集有可学习中心的补丁形成语义区域。文中还在被屏蔽掉的补丁上提出了一种重构损失和基于超像素的 KL 损失与伪标签相结合来增强视觉表征,实验结果表明,该模型在与基线的比较中,在 PASCAL VOC 2012(+1.4% mIoU)、PASCAL Context(+2.4% mIoU)和 COCO(+5.6% mIoU)上实现了相当或更高的分割精度。
Nov, 2022
利用 Contrastive Language-Image Pre-training (简称 CLIP) 模型进行图像级标注的弱监督语义分割 (WSSS) 是一项具有挑战性的任务。本文提出了一种 CLIP-ES 框架,结合了 softmax 函数、基于文本的驱动策略和一种实时的基于注意力机制的亲和度 (CAA) 模块,以及 CGL 损失,来提高 WSSS 的效率和性能。
Dec, 2022
多标签分类的零样本学习方法,通过引入 CLIP-Decoder 的多模态表示学习,在零样本多标签分类任务中表现出前沿结果,相较于现有方法在性能上提升了 3.9%,在广义零样本多标签分类任务中提升了近 2.3%。
Jun, 2024
使用预训练的基础模型进行零样本异常分割是一种有前途的方法,它可以在不需要昂贵的领域特定训练或微调的情况下实现有效的算法。我们通过扰动测试数据使用三种语义变换(有界角度旋转、有界饱和度变化和色调变化)来研究 WinCLIP [14] 零样本异常分割算法的性能。通过在每个样本的最坏情况扰动中进行聚合,我们经验性地测量了一个较低的性能下界,并发现平均性能在 ROC 曲线下面积和区域重叠曲线下面积方面下降了最高达 20% 和 40%。我们发现,无论模型架构或学习目标如何,这三种 CLIP 主干的性能都普遍降低,这表明需要进行仔细的性能评估。
May, 2024