MCTformer+: 弱监督语义分割的多类标记变换器
本文提出了一种基于 Transformer 的新框架,用于学习类别特定的物体定位映射,作为弱监督语义分割的伪标签。通过将多个类别令牌引入 Transformer 中,实现对类别特定注意力的有效捕获,从而生成对应于不同类别令牌的类别判别性的物体定位映射,并进一步利用从 patch-patch Transformer 的注意力中提取的 patch-level 成对亲和力来细化定位图。这个提议的框架可以完全补充 Class Activation Mapping(CAM)方法,提高 WSSS 的结果。
Mar, 2022
本研究提出了 Token Contrast (ToCo),一种用于解决 Vision Transformer(ViT)在弱监督语义分割 (WSSS) 中过度平滑的问题,是革新的 Class Activation Map(CAM)的一种实验。ToCo 采取 Patch Token Contrast(PTC)和 Class Token Contrast(CTC)的方式,有效地提高了语义分类精度,与多阶段的最先进方法相当。
Mar, 2023
通过使用双增强变换网络和自正则化约束,为弱监督语义分割(WSSS)问题提供一种有效的解决方法,该方法通过将 CNN 和 Transformer 网络相结合进行相互补充学习,并在最终输出上进行增强来改善分割效果。在具有挑战性的 PASCAL VOC 2012 基准测试上进行的大量系统评估结果表明,该方法的有效性优于先前的最先进方法。
Sep, 2023
近年来,计算机视觉领域中的弱监督语义分割使用基于图像级标签的监督引起了广泛关注。本研究探索了使用 Swin Transformer 的 'SWTformer' 来提高初始种子 CAMs 的准确性,通过结合局部和全局视角。
Jan, 2024
本研究提出了一种统一的变形器网络,称为多化合物变形器(MCTrans),可嵌入 UNet-like 网络中,并在生物医学图像分割中显着提高了最先进方法的性能。它使用自我关注和交叉注意力进行多尺度卷积特征的序列嵌入,引入了可学习的代理嵌入来模拟语义关系和特征增强。
Jun, 2021
本文探讨了 Vision Transformer (ViT) 在弱监督语义分割 (WSSS) 中的属性。在提出的 WeakTr 框架中,通过自适应融合自注意力图来具有更完整的对象的高质量 CAM 结果。在标准基准测试中,WeakTr 实现了最先进的 WSSS 性能,即在 PASCAL VOC 2012 的 val set 上达到 78.4% 的 mIoU,在 COCO 2014 的 val set 上达到 50.3% 的 mIoU。
Apr, 2023
本研究提出了一种基于转换器的新型语义约束匹配网络(SCMN),通过匹配从成对图像中提取的粗糙类激活图(CAMs),从而隐式引导和校准转换器网络以缓解发散激活问题,在 CUB-200-2011 和 ILSVRC 数据集上进行的大量实验结果显示,我们的方法可以达到最新的最优性能,并且在性能上超过之前方法很大幅度。
Sep, 2023
该论文提出了一种新的基于 Vision Transformers (ViT) 的弱监督语义分割方法,命名为 ViT-PCM,该方法不使用传统的 CNN-CAM。在数据集 PascalVOC2012 上实验结果表明,该方法在参数数量最少的情况下具有最好的性能和精度。
Oct, 2022
基于 Conformer 的 TransCAM 方法在弱监督语义分割中解决了背景噪声的问题,减少了背景噪声的影响,提高了伪标签的准确性。在实验中,我们的模型在 PASCAL VOC 2012 验证数据上达到了 70.5% 的分割性能,在测试数据上达到了 71.1% 的分割性能,在 MS COCO 2014 数据上达到了 45.9% 的分割性能,优于 TransCAM 方法。
Apr, 2024
本文提出了一种基于像素级原型对比度的弱监督语义分割方法,通过两种直观的先验知识,对图像的不同视角和单个视角内进行执行,旨在实施跨视图特征语义一致性规则,并促进特征空间的内部(间)类一致性(离散度),从而提高了两个强基线模型的精度,并在 PASCAL VOC 2012 上实现了新的最先进水平。
Oct, 2021