探索 CLIP 在无需培训的开放词汇语义分割中的潜力
该论文提出了一种针对开放词汇的语义分割方法,即通过预训练模型再特定训练样本上的微调和修正,来解决预训练模型在遮蔽图像上的效果问题,从而提高模型的泛化能力,并通过遮蔽抽取方法有效地提高了语义分割的效果。
Oct, 2022
利用Contrastive Language-Image Pre-training(简称CLIP)模型进行图像级标注的弱监督语义分割(WSSS)是一项具有挑战性的任务。本文提出了一种CLIP-ES框架,结合了softmax函数、基于文本的驱动策略和一种实时的基于注意力机制的亲和度(CAA)模块,以及CGL损失,来提高WSSS的效率和性能。
Dec, 2022
CLIP(Contrastive Language-Image Pre-training)是一种强大的多模态视觉模型,该论文提出了一种 CLIP Surgery 方法,可以在不降低性能的情况下提升 CLIP 的解释性和性能,并在开放词汇任务中获得了显着的提高,如 NUS-Wide 多标签识别上得到了 4.41% 的平均精度提升,Cityscapes 开放词汇语义分割任务上的 mIoU 也超过了现有方法的 8.74%。
Apr, 2023
本研究针对 CLIP 在像素级开放词汇学习任务中面临的输入像素误识别问题,提出了一种名为 TagCLIP 的改进方法,通过引入一种名为 trusty token 的可信标记,成功提高了现有模型的泛化容量。针对 PASCAL VOC 2012 和 COCO-Stuff 164K 两大数据集,TagCLIP 对于未知分类的 IOU 值均有显著提升。
Apr, 2023
使用共享的冻结卷积CLIP骨干网络,将当前的两阶段流程大大简化,并显著提高准确性和成本平衡,成为各种开放词汇语义分割数据集中的最新最佳表现。
Aug, 2023
本文研究了在一组图像中共同语义对象的共同分割,并使用对比式语言-图像预训练框架 (CLIP) 来完成该任务。通过一个用于独立处理图像集中每个图像的骨干分割网络,我们引入了 CLIP 中的语义信息,并通过三个关键模块——i) 图像集特征对应模块,对图像集的全局一致语义信息进行编码;ii) CLIP 交互模块,利用 CLIP 提取的图像集的共同语义信息来优化骨干特征;iii) CLIP 正则化模块,引导 CLIP 朝向共同分割任务,找到最佳的 CLIP 语义并用其来正则化骨干特征——以一种粗糙到精细的方式优化这些特征。在四个标准的共同分割基准数据集上的实验证明了我们方法的性能优于最先进的方法。
Aug, 2023
本文提出了一种名为CLIP-DIY的开放词汇语义分割方法,该方法利用现有的无监督目标定位方法,直接在不同尺度的补丁上利用CLIP的分类能力,并通过无监督的目标定位方法指导分割过程,从而在PASCAL VOC上获得了最新的零样本语义分割结果,并在COCO上表现与最佳方法相当。
Sep, 2023
借鉴了CLIP模型,并通过自适应CLIP的可视化transformer来强化感知,提出了一种新的方法NACLIP用于训练自由的open-vocabulary semantic segmentation(OVSS),在8个流行的语义分割评估中获得了最先进的性能。
Apr, 2024
通过重新研究CLIP的架构,我们发现残差连接是降低分割质量的主要噪声源。因此,我们提出了ClearCLIP,这是一种新颖的方法,通过对CLIP的表示进行分解来增强开放词汇的语义分割。ClearCLIP消除了残差连接,实施了自我关注,并且舍弃了前馈网络。在多个基准测试中,ClearCLIP始终生成更清晰、更准确的分割地图,并且在性能上优于现有方法。
Jul, 2024
本研究解决了开放词汇语义分割中模型在视觉表示与开放词汇语义标签整合的困难。提出的ProxyCLIP框架通过利用视觉基础模型的空间特征,将其作为代理注意力增强CLIP,从而实现空间精度与语义丰富性的有效结合。研究表明,ProxyCLIP显著提高了多项基准测试的平均均值交并比,从40.3提升至44.4,展现了其在开放词汇分割任务中的卓越效果。
Aug, 2024