kNN-CLIP: 基于检索的训练免费的连续扩展大词汇的分割

Apr, 2024

kNN-CLIP: 基于检索的训练免费的连续扩展大词汇的分割

kNN-CLIP: Retrieval Enables Training-Free Segmentation on Continually Expanding Large Vocabularies

Zhongrui Gui, Shuyang Sun, Runjia Li, Jianhao Yuan, Zhaochong An...

TL;DR我们引入了一种新颖的连续语义和全景分割策略，名为 kNN-CLIP，它能够在计算和内存成本最小化的情况下，实现对不断扩大的词汇的适应，并在大词汇语义和全景分割数据集上取得了最先进的性能表现，为实现更高效、可适应性强的连续分割方法迈出了一步。

Abstract

Rapid advancements in continual segmentation have yet to bridge the gap of scaling to large continually expanding vocabularies under compute-constrained scenarios. We discover that traditional continual training leads to catastrophic forgetting under →

continual segmentation compute constraints zero-shot segmentation knn-clip large-vocabulary

发现论文，激发创造

注重邻居：无需训练的开放词汇语义分割

借鉴了 CLIP 模型，并通过自适应 CLIP 的可视化 transformer 来强化感知，提出了一种新的方法 NACLIP 用于训练自由的 open-vocabulary semantic segmentation (OVSS)，在 8 个流行的语义分割评估中获得了最先进的性能。

Apr, 2024

CLIP-DIY：CLIP 密集推理免费实现开放词汇语义分割

本文提出了一种名为 CLIP-DIY 的开放词汇语义分割方法，该方法利用现有的无监督目标定位方法，直接在不同尺度的补丁上利用 CLIP 的分类能力，并通过无监督的目标定位方法指导分割过程，从而在 PASCAL VOC 上获得了最新的零样本语义分割结果，并在 COCO 上表现与最佳方法相当。

Sep, 2023

TagCLIP：提高开放式语料库语义分割的区分能力

本研究针对 CLIP 在像素级开放词汇学习任务中面临的输入像素误识别问题，提出了一种名为 TagCLIP 的改进方法，通过引入一种名为 trusty token 的可信标记，成功提高了现有模型的泛化容量。针对 PASCAL VOC 2012 和 COCO-Stuff 164K 两大数据集，TagCLIP 对于未知分类的 IOU 值均有显著提升。

Apr, 2023

CLIP 作为 RNN：无需培训即可分割无限的视觉概念

通过引入一个创新的递归框架，我们的研究表明，在不进行训练的情况下，我们的模型能够优于那些经过百万级附加样本微调的方法，为零样本语义和参考图像分割任务的最新记录设定了新的技术水平。

Dec, 2023

CLIP-VIS：适应开放词汇视频实例分割

本研究提出了一个名为 CLIP-VIS 的简单编码器 - 解码器网络，用于自适应开放词汇视频实例分割。CLIP-VIS 采用冻结的 CLIP 图像编码器，并引入了类不可知的掩码生成、时序 Top-K 增强匹配和加权开放词汇分类三个模块，实验结果表明该方法在各种视频实例分割数据集上表现出色。

Mar, 2024

SegCLIP: 可学习中心的补丁聚合方法用于开放式语义分割

本文提出了一个 CLIP-based 的模型，名为 SegCLIP，以无注释的方式实现了开放式词汇语义分割，其主要思想是通过训练文本 - 图像对来聚集有可学习中心的补丁形成语义区域。文中还在被屏蔽掉的补丁上提出了一种重构损失和基于超像素的 KL 损失与伪标签相结合来增强视觉表征，实验结果表明，该模型在与基线的比较中，在 PASCAL VOC 2012（+1.4% mIoU）、PASCAL Context（+2.4% mIoU）和 COCO（+5.6% mIoU）上实现了相当或更高的分割精度。

Nov, 2022

将 CLIP 的知识转化为零样本点云语义分割

本文提出了一种简单而有效的基线方法，将 CLIP 中的视觉语言知识在特征和输出层面上转移到点云编码器，从而在零样本点云语义分割中取得了显著的性能提升，并在无标注点云语义分割设置中取得了有希望的结果，展示了其在标签效率学习方面的巨大潜力。

Dec, 2023

CLIP 模型是高效的继续学习器

本文发现，CLIP（Contrastive Language-Image Pretraining）模型在冻结状态下，在不进行任何微调（零次评估）的情况下提供惊人的持续学习表现。作者在多种设置（包括类增量、域增量和任务不可知的增量学习）和五个流行基准测试集上评估了 CLIP 模型，证明了其在大多数设置中优于现有模型；同时作者还通过改变简单提示模板的文本输入来研究 CLIP 模型性能的影响。作者鼓励在持续学习任务中使用这种强大而非常简单的基线方法进行未来的比较。

Oct, 2022

Open-Vocabulary Panoptic Segmentation with MaskCLIP

本文提出了用于任意描述的显式开放分类的 Panoptic 分割，建立了一个没有调优或蒸馏的基线方法，然后开发了一个新的基于 Transformer 的方法 MaskCLIP，使用 ViT-CLIP 骨架和掩模查询来执行语义和物体实例分割。最后，在 ADE20K 和 PASCAL 数据集上获得了令人鼓舞的结果，并展示了 MaskCLIP 的定制类别的定性说明。

Aug, 2022

使用适应掩码的 CLIP 进行开放词汇语义分割

该论文提出了一种针对开放词汇的语义分割方法，即通过预训练模型再特定训练样本上的微调和修正，来解决预训练模型在遮蔽图像上的效果问题，从而提高模型的泛化能力，并通过遮蔽抽取方法有效地提高了语义分割的效果。

Oct, 2022