弱监督语义分割的跨语言图像匹配
我们提出了一种基于问题回答跨语言图像匹配框架,利用视觉语言基础模型来最大化对图像的基于文本的理解,并引导激活图的生成,以解决现有激活地图方法在目标物体区域低激活和背景区域误激活的问题。
Jan, 2024
该研究提出了使用无标签图像数据进行不需要图像级监督的类无关激活图生成的对比学习方法(Contrastive learning for Class-agnostic Activation Map),得到了更完整的物体区域,并应用于弱监督目标定位和语义分割中。
Mar, 2022
这项研究旨在利用预训练的基础模型,如对比语言图像预训练(CLIP)和分段任意模型(SAM),利用图像级别标签解决弱监督语义分割(WSSS)。为此,我们提出了基于 CLIP 和 SAM 的粗到精细的框架,用于生成高质量的分割种子。我们通过冻结权重的 CLIP 和两组可学习的任务特定提示共同执行图像分类任务和种子分割任务。我们设计了一个基于 SAM 的分区(SAMS)模块,并将其应用于每个任务以生成粗糙或精细的种子图。此外,我们设计了一个多标签对比损失,由图像级别标签监督,和一个由生成的粗糙种子图监督的 CAM 激活损失。这些损失用于学习提示,在我们的框架中,提示是唯一需要学习的部分。一旦学习了提示,我们将每个图像以及学习的分割特定提示输入到 CLIP 和 SAMS 模块中,以生成高质量的分割种子。这些种子用作伪标签,用于训练一种现成的分割网络,就像其他两阶段的 WSSS 方法一样。实验证明,我们的方法在 PASCAL VOC 2012 上取得了最先进的性能,并在 MS COCO 2014 上获得了有竞争力的结果。
Dec, 2023
我们提出了一种名为 “SemPLeS” 的框架,通过学习有效地提示 CLIP 空间,以增强分割区域与目标对象类别之间的语义对齐,从而产生训练分割模型所需的伪掩码。在 PASCAL VOC 和 MS COCO 等标准 WSSS 基准测试中,我们所提出的 SemPLeS 框架实现了最先进的性能,并通过我们学到的提示的语义可视化展示了其解释性,代码将会发布。
Jan, 2024
利用 Contrastive Language-Image Pre-training (简称 CLIP) 模型进行图像级标注的弱监督语义分割 (WSSS) 是一项具有挑战性的任务。本文提出了一种 CLIP-ES 框架,结合了 softmax 函数、基于文本的驱动策略和一种实时的基于注意力机制的亲和度 (CAA) 模块,以及 CGL 损失,来提高 WSSS 的效率和性能。
Dec, 2022
提出了一种新的方法,Puzzle-CAM,用于在使用图像级监督的情况下,通过最小化从分离补丁和整个图像的特征之间的差异来发现对象中最集成的区域,以激活对象的整体区域。在 PASCAL VOC 2012 测试数据集上,Puzzle-CAM 的表现优于以前的最先进的方法。
Jan, 2021
基于对数据集特征的广泛分析,我们提出了一种新的弱监督语义分割框架,通过使用对驾驶场景数据集进行定制化处理,克服了现有技术在这类数据集上性能严重降低的挑战,并针对 Contrastive Language-Image Pre-training(CLIP)引入的两个关键挑战提出了解决方案。
Dec, 2023
通过大规模的图像 - 文本对,借助 CLIM 方法实现区域与文本表示的对齐,改进开放词汇物体检测方法并加强视觉 - 语言模型的区域表示,提供更强实力的骨干,实验结果表明 CLIM 在 OV-COCO 和 OV-LVIS 基准上极大改进不同的基线系统。
Dec, 2023
本文提出了一种基于像素级原型对比度的弱监督语义分割方法,通过两种直观的先验知识,对图像的不同视角和单个视角内进行执行,旨在实施跨视图特征语义一致性规则,并促进特征空间的内部(间)类一致性(离散度),从而提高了两个强基线模型的精度,并在 PASCAL VOC 2012 上实现了新的最先进水平。
Oct, 2021
该论文提出了一种基于图片分类网络和概率解释 CAM 的图像级弱监督语义分割方法来改善先前弱监督下模型的性能,通过提高区域相似性和轮廓质量来增强几乎任何以前的 WSSS 方法,并在 PASCAL VOC 数据集上进行了演示。
Apr, 2023