使用适应掩码的 CLIP 进行开放词汇语义分割
本文提出了用于任意描述的显式开放分类的 Panoptic 分割,建立了一个没有调优或蒸馏的基线方法,然后开发了一个新的基于 Transformer 的方法 MaskCLIP,使用 ViT-CLIP 骨架和掩模查询来执行语义和物体实例分割。最后,在 ADE20K 和 PASCAL 数据集上获得了令人鼓舞的结果,并展示了 MaskCLIP 的定制类别的定性说明。
Aug, 2022
本研究提出了一个名为 CLIP-VIS 的简单编码器 - 解码器网络,用于自适应开放词汇视频实例分割。CLIP-VIS 采用冻结的 CLIP 图像编码器,并引入了类不可知的掩码生成、时序 Top-K 增强匹配和加权开放词汇分类三个模块,实验结果表明该方法在各种视频实例分割数据集上表现出色。
Mar, 2024
本研究针对 CLIP 在像素级开放词汇学习任务中面临的输入像素误识别问题,提出了一种名为 TagCLIP 的改进方法,通过引入一种名为 trusty token 的可信标记,成功提高了现有模型的泛化容量。针对 PASCAL VOC 2012 和 COCO-Stuff 164K 两大数据集,TagCLIP 对于未知分类的 IOU 值均有显著提升。
Apr, 2023
本文提出了一个 CLIP-based 的模型,名为 SegCLIP,以无注释的方式实现了开放式词汇语义分割,其主要思想是通过训练文本 - 图像对来聚集有可学习中心的补丁形成语义区域。文中还在被屏蔽掉的补丁上提出了一种重构损失和基于超像素的 KL 损失与伪标签相结合来增强视觉表征,实验结果表明,该模型在与基线的比较中,在 PASCAL VOC 2012(+1.4% mIoU)、PASCAL Context(+2.4% mIoU)和 COCO(+5.6% mIoU)上实现了相当或更高的分割精度。
Nov, 2022
本文提出了 OpenSeg 模型,通过学习像素的可视化分组和视觉 - 语义对齐,利用可扩展的图像级监督生成分割掩码,从而实现对图像的开放词汇的分割与组织,相对 LSeg 模型在 PASCAL 数据集上精度提高了 19.9 个百分点。
Dec, 2021
本文旨在探讨 Contrastive Language-Image Pre-training (CLIP) 在像素级密集预测,特别是语义分割方面的潜力,并以 MaskCLIP 为例证明了它在无需注释和微调的情况下可以产生令人满意的分割结果。通过添加伪标签和自训练,MaskCLIP + 甚至超过了 SOTA 的泛化零样本语义分割方法。
Dec, 2021
本研究提出了一种无需调参的基于 CLIP 的语义分割框架,可以普遍适用于各种类型的监督。通过利用 CLIP 的零样本分类能力生成伪标签或进行开放词汇量的分割,我们解决了蒙版与 CLIP 文本嵌入之间的偏差问题,提出了一种判别偏差对齐的 CLIP 方法以获得更好的性能。我们构建了一个全局 - 局部一致性的分类器来对 SAM 蒙版进行分类,揭示了 DBA-CLIP 产生的高质量嵌入的内在结构,并展示了对噪声伪标签的鲁棒性。大量实验证实了我们方法的效率和有效性,并在各种数据集和监督类型上取得了最先进或具有竞争力的性能。
May, 2024
本文提出了一种名为 CLIP-DIY 的开放词汇语义分割方法,该方法利用现有的无监督目标定位方法,直接在不同尺度的补丁上利用 CLIP 的分类能力,并通过无监督的目标定位方法指导分割过程,从而在 PASCAL VOC 上获得了最新的零样本语义分割结果,并在 COCO 上表现与最佳方法相当。
Sep, 2023
通过引入一个创新的递归框架,我们的研究表明,在不进行训练的情况下,我们的模型能够优于那些经过百万级附加样本微调的方法,为零样本语义和参考图像分割任务的最新记录设定了新的技术水平。
Dec, 2023
本文提出了一种利用 CLIP 模型进行半监督图像标注的方法,包括图像编码器、映射网络和语言模型,通过对比生成的标题和实际标题,并使用未标记的图像进行二次训练,得到了与完整数据集训练的业界最先进模型相比可比的性能,且标题更加独特、信息量更大,并且符合人类的偏好。
Jun, 2023