CLIP 轻量级语义分割
本文介绍了一种用于训练轻量级 CLIP 模型的多级交互范式,包括改进的全局实例级对齐目标、基于放松二分匹配的令牌级对齐目标以及使用遮蔽语言建模的额外目标。实验结果表明,该方法在多个下游任务中实现了更高的性能。
Dec, 2023
基于预训练视觉 - 语言模型的 Cascade-CLIP 方法,在零样本语义分割任务中通过引入一系列独立解码器,以级联方式将多层次的视觉特征与文本嵌入对齐,取得了优秀的性能。
Jun, 2024
利用 Contrastive Language-Image Pre-training (简称 CLIP) 模型进行图像级标注的弱监督语义分割 (WSSS) 是一项具有挑战性的任务。本文提出了一种 CLIP-ES 框架,结合了 softmax 函数、基于文本的驱动策略和一种实时的基于注意力机制的亲和度 (CAA) 模块,以及 CGL 损失,来提高 WSSS 的效率和性能。
Dec, 2022
PyramidCLIP 通过分层语义对齐和数据集扩充可以提高图像与文本匹配任务中的性能,并在不同的数据集上取得了极具竞争力的结果。
Apr, 2022
本文提出了一种框架,通过使用 CLIP 的预训练知识的隐式和显式方法来进行密集预测,是一种模型不可知的方法,可应用于任意密集预测系统和各种预训练视觉 Backbones,包括 CLIP 模型和 ImageNet 预训练模型,实证实验表明,我们的方法在语义分割,目标检测和实例分割任务上具有优越的性能。
Dec, 2021
本文旨在探讨 Contrastive Language-Image Pre-training (CLIP) 在像素级密集预测,特别是语义分割方面的潜力,并以 MaskCLIP 为例证明了它在无需注释和微调的情况下可以产生令人满意的分割结果。通过添加伪标签和自训练,MaskCLIP + 甚至超过了 SOTA 的泛化零样本语义分割方法。
Dec, 2021
提出了一种名为 CLIPTeacher 的新学习框架,用于各种基于像素分类的分割模型,不引入任何显式的掩码建议者或更改 CLIP 的结构,并利用已知区域和忽略区域来取得较大的性能提升。
Oct, 2023
本文研究了在一组图像中共同语义对象的共同分割,并使用对比式语言 - 图像预训练框架 (CLIP) 来完成该任务。通过一个用于独立处理图像集中每个图像的骨干分割网络,我们引入了 CLIP 中的语义信息,并通过三个关键模块 ——i) 图像集特征对应模块,对图像集的全局一致语义信息进行编码;ii) CLIP 交互模块,利用 CLIP 提取的图像集的共同语义信息来优化骨干特征;iii) CLIP 正则化模块,引导 CLIP 朝向共同分割任务,找到最佳的 CLIP 语义并用其来正则化骨干特征 —— 以一种粗糙到精细的方式优化这些特征。在四个标准的共同分割基准数据集上的实验证明了我们方法的性能优于最先进的方法。
Aug, 2023
提出了一种基于 CLIP 模型的轻量级图像字幕生成器 LightCap,可以在资源有限的设备上使用,仅包含 40M 参数,比现有技术方法的模型大小减少了超过 75%,与仅使用单个 CPU 的手机的推理速度为 188ms 每张图像,并在著名数据集上表现出最先进的性能。
Dec, 2022