MVP-SEG: 面向开放词库语义分割的多视图提示学习
本文提出了一个 CLIP-based 的模型,名为 SegCLIP,以无注释的方式实现了开放式词汇语义分割,其主要思想是通过训练文本 - 图像对来聚集有可学习中心的补丁形成语义区域。文中还在被屏蔽掉的补丁上提出了一种重构损失和基于超像素的 KL 损失与伪标签相结合来增强视觉表征,实验结果表明,该模型在与基线的比较中,在 PASCAL VOC 2012(+1.4% mIoU)、PASCAL Context(+2.4% mIoU)和 COCO(+5.6% mIoU)上实现了相当或更高的分割精度。
Nov, 2022
准确分割病变区域对于各种疾病的临床诊断和治疗至关重要。本研究提出了一种新颖的医学视觉提示 (MVP) 框架,借鉴了自然语言处理 (NLP) 的预训练和提示概念,通过整合 SPGP、IEGP 和 AAGP 三个关键组件,使得分割网络更好地学习形状提示信息并实现不同任务之间的相互学习,实验结果表明此方法在各种具有挑战性的医学图像任务中表现优越。
Apr, 2024
本研究针对 CLIP 在像素级开放词汇学习任务中面临的输入像素误识别问题,提出了一种名为 TagCLIP 的改进方法,通过引入一种名为 trusty token 的可信标记,成功提高了现有模型的泛化容量。针对 PASCAL VOC 2012 和 COCO-Stuff 164K 两大数据集,TagCLIP 对于未知分类的 IOU 值均有显著提升。
Apr, 2023
该论文提出了一种针对开放词汇的语义分割方法,即通过预训练模型再特定训练样本上的微调和修正,来解决预训练模型在遮蔽图像上的效果问题,从而提高模型的泛化能力,并通过遮蔽抽取方法有效地提高了语义分割的效果。
Oct, 2022
提出了一种名为 CLIPTeacher 的新学习框架,用于各种基于像素分类的分割模型,不引入任何显式的掩码建议者或更改 CLIP 的结构,并利用已知区域和忽略区域来取得较大的性能提升。
Oct, 2023
本文通过自监督学习及视觉 - 语言模型,提出了 CLIP-S4 方法,该方法可以在不需要人类注释和未知类信息的情况下进行各种语义分割任务,包括无监督、迁移学习和语言驱动分割,并在未知类别识别上表现出良好的性能优势。
May, 2023
利用 Contrastive Language-Image Pre-training (简称 CLIP) 模型进行图像级标注的弱监督语义分割 (WSSS) 是一项具有挑战性的任务。本文提出了一种 CLIP-ES 框架,结合了 softmax 函数、基于文本的驱动策略和一种实时的基于注意力机制的亲和度 (CAA) 模块,以及 CGL 损失,来提高 WSSS 的效率和性能。
Dec, 2022
使用 CLIP 等强大的预训练图像语言模型在很少标记样本的情况下,开发了一种名为 PartSeg 的新方法,用于基于多模态学习的少样本部件分割任务,该方法利用部件感知提示学习生成部件特定的提示,从而使 CLIP 模型更好地理解 “部件” 的概念并充分利用其文本空间,实验结果在 PartImageNet 和 Pascal_Part 数据集上证明了该方法的最新性能。
Aug, 2023
通过局部到全局的框架,我们提出了一种扩展了 CLIP 的方法来提高多标签分类性能,并通过生成的标签在弱监督语义分割任务中取得了显著的性能提升。
Dec, 2023
该研究扩展了 CLIP 模型的多粒度对齐,在多个层次上构建了伪注释数据集,并开发了名为 UMG-CLIP 的统一多粒度学习框架,通过参数高效调整,实现了在各种图像理解基准测试中超越当前广泛使用的 CLIP 模型,包括开放世界识别、检索、语义分割和全景分割任务,具有最先进的性能。
Jan, 2024