kNN-CLIP: 基于检索的训练免费的连续扩展大词汇的分割
借鉴了 CLIP 模型,并通过自适应 CLIP 的可视化 transformer 来强化感知,提出了一种新的方法 NACLIP 用于训练自由的 open-vocabulary semantic segmentation (OVSS),在 8 个流行的语义分割评估中获得了最先进的性能。
Apr, 2024
本文提出了一种名为 CLIP-DIY 的开放词汇语义分割方法,该方法利用现有的无监督目标定位方法,直接在不同尺度的补丁上利用 CLIP 的分类能力,并通过无监督的目标定位方法指导分割过程,从而在 PASCAL VOC 上获得了最新的零样本语义分割结果,并在 COCO 上表现与最佳方法相当。
Sep, 2023
本研究针对 CLIP 在像素级开放词汇学习任务中面临的输入像素误识别问题,提出了一种名为 TagCLIP 的改进方法,通过引入一种名为 trusty token 的可信标记,成功提高了现有模型的泛化容量。针对 PASCAL VOC 2012 和 COCO-Stuff 164K 两大数据集,TagCLIP 对于未知分类的 IOU 值均有显著提升。
Apr, 2023
通过引入一个创新的递归框架,我们的研究表明,在不进行训练的情况下,我们的模型能够优于那些经过百万级附加样本微调的方法,为零样本语义和参考图像分割任务的最新记录设定了新的技术水平。
Dec, 2023
本研究提出了一个名为 CLIP-VIS 的简单编码器 - 解码器网络,用于自适应开放词汇视频实例分割。CLIP-VIS 采用冻结的 CLIP 图像编码器,并引入了类不可知的掩码生成、时序 Top-K 增强匹配和加权开放词汇分类三个模块,实验结果表明该方法在各种视频实例分割数据集上表现出色。
Mar, 2024
本文提出了一个 CLIP-based 的模型,名为 SegCLIP,以无注释的方式实现了开放式词汇语义分割,其主要思想是通过训练文本 - 图像对来聚集有可学习中心的补丁形成语义区域。文中还在被屏蔽掉的补丁上提出了一种重构损失和基于超像素的 KL 损失与伪标签相结合来增强视觉表征,实验结果表明,该模型在与基线的比较中,在 PASCAL VOC 2012(+1.4% mIoU)、PASCAL Context(+2.4% mIoU)和 COCO(+5.6% mIoU)上实现了相当或更高的分割精度。
Nov, 2022
本文提出了一种简单而有效的基线方法,将 CLIP 中的视觉语言知识在特征和输出层面上转移到点云编码器,从而在零样本点云语义分割中取得了显著的性能提升,并在无标注点云语义分割设置中取得了有希望的结果,展示了其在标签效率学习方面的巨大潜力。
Dec, 2023
本文发现,CLIP(Contrastive Language-Image Pretraining)模型在冻结状态下,在不进行任何微调(零次评估)的情况下提供惊人的持续学习表现。作者在多种设置(包括类增量、域增量和任务不可知的增量学习)和五个流行基准测试集上评估了 CLIP 模型,证明了其在大多数设置中优于现有模型;同时作者还通过改变简单提示模板的文本输入来研究 CLIP 模型性能的影响。作者鼓励在持续学习任务中使用这种强大而非常简单的基线方法进行未来的比较。
Oct, 2022
本文提出了用于任意描述的显式开放分类的 Panoptic 分割,建立了一个没有调优或蒸馏的基线方法,然后开发了一个新的基于 Transformer 的方法 MaskCLIP,使用 ViT-CLIP 骨架和掩模查询来执行语义和物体实例分割。最后,在 ADE20K 和 PASCAL 数据集上获得了令人鼓舞的结果,并展示了 MaskCLIP 的定制类别的定性说明。
Aug, 2022
该论文提出了一种针对开放词汇的语义分割方法,即通过预训练模型再特定训练样本上的微调和修正,来解决预训练模型在遮蔽图像上的效果问题,从而提高模型的泛化能力,并通过遮蔽抽取方法有效地提高了语义分割的效果。
Oct, 2022