多模式基础模型增强弱监督语义分割:一种端到端方法
基于图像级标签的弱监督语义分割是有效的避免昂贵标注的解决方案。本文首先对传统方法进行全面调研,然后研究了在弱监督语义分割中视觉基础模型(如 SAM)的适用性和挑战,为该研究领域的未来发展提供了深入的见解。
Oct, 2023
这项研究旨在利用预训练的基础模型,如对比语言图像预训练(CLIP)和分段任意模型(SAM),利用图像级别标签解决弱监督语义分割(WSSS)。为此,我们提出了基于 CLIP 和 SAM 的粗到精细的框架,用于生成高质量的分割种子。我们通过冻结权重的 CLIP 和两组可学习的任务特定提示共同执行图像分类任务和种子分割任务。我们设计了一个基于 SAM 的分区(SAMS)模块,并将其应用于每个任务以生成粗糙或精细的种子图。此外,我们设计了一个多标签对比损失,由图像级别标签监督,和一个由生成的粗糙种子图监督的 CAM 激活损失。这些损失用于学习提示,在我们的框架中,提示是唯一需要学习的部分。一旦学习了提示,我们将每个图像以及学习的分割特定提示输入到 CLIP 和 SAMS 模块中,以生成高质量的分割种子。这些种子用作伪标签,用于训练一种现成的分割网络,就像其他两阶段的 WSSS 方法一样。实验证明,我们的方法在 PASCAL VOC 2012 上取得了最先进的性能,并在 MS COCO 2014 上获得了有竞争力的结果。
Dec, 2023
使用 Segment Anything Model(SAM)结合 Class Activation Maps(CAM)生成更高质量的伪标签,用伪标签为特定类提供信号,选择相关的 mask 并用它们进行标注以产生一个更精确的伪标签,综合我们的方法提高了五种最先进的弱监督语义分割方法的平均伪标签交并比(mIoU)6.2%。
May, 2023
对比传统的像素级监督语义分割,使用图像级标签的弱监督语义分割(WSSS)面临的挑战是始终专注于最具差异性的区域,导致完全监督条件下的不一致。典型的表现是在目标边界上减少了精度,从而导致 WSSS 的准确性下降。为了缓解这个问题,我们提出了一种自适应将图像内容划分为确定性区域(如自信的前景和背景)和不确定性区域(如目标边界和错误分类类别)进行分别处理的方法。对于不确定性提示,我们采用基于激活的掩膜策略,并试图通过自身提炼的知识来恢复局部信息。我们进一步假设未掩膜的自信区域应具有足够的鲁棒性以保持全局语义。基于此,我们引入了一种互补的自我增强方法,它限制了这些自信区域与具有相同类别标签的增强图片之间的语义一致性。通过在 PASCAL VOC 2012 和 MS COCO 2014 上进行的大量实验证明,我们提出的 WSSS 的单阶段方法不仅明显优于最先进的基准方法,而且在复杂性换精度的多阶段方法之上。可以在此 https URL 找到代码。
Dec, 2023
本研究提出一种基于图神经网络的弱监督语义分割方法,将图像表示为图的节点,使用组内注意力机制建立图中的关系,通过迭代信息传递的方式学习更准确、更完整的物体响应,并在多个基准数据集上取得了最先进的性能。
Dec, 2020
该论文提出了一种基于图片分类网络和概率解释 CAM 的图像级弱监督语义分割方法来改善先前弱监督下模型的性能,通过提高区域相似性和轮廓质量来增强几乎任何以前的 WSSS 方法,并在 PASCAL VOC 数据集上进行了演示。
Apr, 2023
本文介绍将 SAM 应用于弱监督语义分割,作为伪标签生成流程的方法,在 PASCAL VOC 和 MS-COCO 数据集上取得了显著的改进。
May, 2023
本研究提出了一种基于形状信息的弱监督语义分割方法,采用了新颖的改进方法去增强模型可靠性,能够在单阶段框架内迅速高效地完成训练与推理,在 PASCAL VOC 2012 数据集上的准确率超过了现有的同类方法。
Aug, 2022
通过使用双增强变换网络和自正则化约束,为弱监督语义分割(WSSS)问题提供一种有效的解决方法,该方法通过将 CNN 和 Transformer 网络相结合进行相互补充学习,并在最终输出上进行增强来改善分割效果。在具有挑战性的 PASCAL VOC 2012 基准测试上进行的大量系统评估结果表明,该方法的有效性优于先前的最先进方法。
Sep, 2023
本文提出了一种基于像素级原型对比度的弱监督语义分割方法,通过两种直观的先验知识,对图像的不同视角和单个视角内进行执行,旨在实施跨视图特征语义一致性规则,并促进特征空间的内部(间)类一致性(离散度),从而提高了两个强基线模型的精度,并在 PASCAL VOC 2012 上实现了新的最先进水平。
Oct, 2021