卷积永难逝:单冻结卷积 CLIP 的开放词汇分割
本研究提出了一个名为 CLIP-VIS 的简单编码器 - 解码器网络,用于自适应开放词汇视频实例分割。CLIP-VIS 采用冻结的 CLIP 图像编码器,并引入了类不可知的掩码生成、时序 Top-K 增强匹配和加权开放词汇分类三个模块,实验结果表明该方法在各种视频实例分割数据集上表现出色。
Mar, 2024
该论文提出了一种针对开放词汇的语义分割方法,即通过预训练模型再特定训练样本上的微调和修正,来解决预训练模型在遮蔽图像上的效果问题,从而提高模型的泛化能力,并通过遮蔽抽取方法有效地提高了语义分割的效果。
Oct, 2022
本文提出了用于任意描述的显式开放分类的 Panoptic 分割,建立了一个没有调优或蒸馏的基线方法,然后开发了一个新的基于 Transformer 的方法 MaskCLIP,使用 ViT-CLIP 骨架和掩模查询来执行语义和物体实例分割。最后,在 ADE20K 和 PASCAL 数据集上获得了令人鼓舞的结果,并展示了 MaskCLIP 的定制类别的定性说明。
Aug, 2022
本文提出了一种名为 CLIP-DIY 的开放词汇语义分割方法,该方法利用现有的无监督目标定位方法,直接在不同尺度的补丁上利用 CLIP 的分类能力,并通过无监督的目标定位方法指导分割过程,从而在 PASCAL VOC 上获得了最新的零样本语义分割结果,并在 COCO 上表现与最佳方法相当。
Sep, 2023
本文提出 Efficient Video Learning (EVL) 框架,使用轻量级 Transformer 解码器和学习查询标记以从 CLIP 图像编码器中动态收集帧级空间特征,进一步采用每个解码器层中的局部时间模块来发现相邻帧及其注意力映射中的时间线索。尽管使用了以前的预训练图像模型,本研究表明 EVL 模型在各种视频识别数据集上都学习了高质量的视频表示方法。
Aug, 2022
本文提出了一个 CLIP-based 的模型,名为 SegCLIP,以无注释的方式实现了开放式词汇语义分割,其主要思想是通过训练文本 - 图像对来聚集有可学习中心的补丁形成语义区域。文中还在被屏蔽掉的补丁上提出了一种重构损失和基于超像素的 KL 损失与伪标签相结合来增强视觉表征,实验结果表明,该模型在与基线的比较中,在 PASCAL VOC 2012(+1.4% mIoU)、PASCAL Context(+2.4% mIoU)和 COCO(+5.6% mIoU)上实现了相当或更高的分割精度。
Nov, 2022
本文旨在探讨 Contrastive Language-Image Pre-training (CLIP) 在像素级密集预测,特别是语义分割方面的潜力,并以 MaskCLIP 为例证明了它在无需注释和微调的情况下可以产生令人满意的分割结果。通过添加伪标签和自训练,MaskCLIP + 甚至超过了 SOTA 的泛化零样本语义分割方法。
Dec, 2021
本文提出了基于 CLIP 模型的 WeCLIP 方法,用于弱监督语义分割。WeCLIP 将冻结的 CLIP 模型作为骨干网络进行语义特征提取,并设计了新的解码器来解释提取的语义特征进行最终预测。同时,我们利用冻结的骨干网络生成伪标签来训练解码器,并提出了一个校正模块来动态修正这些标签。我们的架构使得解码器和校正模块相互受益,以提高最终性能。大量实验证明了我们的方法在训练成本较低的情况下明显优于其他方法。此外,我们的 WeCLIP 方法在全监督设置下也取得了有希望的结果。
Jun, 2024
通过引入一个创新的递归框架,我们的研究表明,在不进行训练的情况下,我们的模型能够优于那些经过百万级附加样本微调的方法,为零样本语义和参考图像分割任务的最新记录设定了新的技术水平。
Dec, 2023
CLIP(Contrastive Language-Image Pre-training)是一种强大的多模态视觉模型,该论文提出了一种 CLIP Surgery 方法,可以在不降低性能的情况下提升 CLIP 的解释性和性能,并在开放词汇任务中获得了显着的提高,如 NUS-Wide 多标签识别上得到了 4.41% 的平均精度提升,Cityscapes 开放词汇语义分割任务上的 mIoU 也超过了现有方法的 8.74%。
Apr, 2023