WeakTr: 探索用于弱监督语义分割的普通视觉 Transformer

Apr, 2023

WeakTr: 探索用于弱监督语义分割的普通视觉 Transformer

WeakTr: Exploring Plain Vision Transformer for Weakly-supervised Semantic Segmentation

Lianghui Zhu, Yingyue Li, Jiemin Fang, Yan Liu, Hao Xin...

TL;DR本文探讨了 Vision Transformer (ViT) 在弱监督语义分割 (WSSS) 中的属性。在提出的 WeakTr 框架中，通过自适应融合自注意力图来具有更完整的对象的高质量 CAM 结果。在标准基准测试中，WeakTr 实现了最先进的 WSSS 性能，即在 PASCAL VOC 2012 的 val set 上达到 78.4% 的 mIoU，在 COCO 2014 的 val set 上达到 50.3% 的 mIoU。

Abstract

This paper explores the properties of the plain vision transformer (ViT) for weakly-supervised semantic segmentation (WSSS). The class activation map (CAM) is of critical importance for understanding a classifica

vision transformer weakly-supervised semantic segmentation self-attention maps cam results weaktr

发现论文，激发创造

双增强变换器网络用于弱监督语义分割

通过使用双增强变换网络和自正则化约束，为弱监督语义分割（WSSS）问题提供一种有效的解决方法，该方法通过将 CNN 和 Transformer 网络相结合进行相互补充学习，并在最终输出上进行增强来改善分割效果。在具有挑战性的 PASCAL VOC 2012 基准测试上进行的大量系统评估结果表明，该方法的有效性优于先前的最先进方法。

Sep, 2023

基于视觉 Transformer 的最大池化方法调和弱监督下的语义分割中的类别和形状

该论文提出了一种新的基于 Vision Transformers (ViT) 的弱监督语义分割方法，命名为 ViT-PCM，该方法不使用传统的 CNN-CAM。在数据集 PascalVOC2012 上实验结果表明，该方法在参数数量最少的情况下具有最好的性能和精度。

Oct, 2022

利用 Swin Transformer 进行局部到全局弱监督语义分割

近年来，计算机视觉领域中的弱监督语义分割使用基于图像级标签的监督引起了广泛关注。本研究探索了使用 Swin Transformer 的 'SWTformer' 来提高初始种子 CAMs 的准确性，通过结合局部和全局视角。

Jan, 2024

基于像素原型对比的弱监督语义分割

本文提出了一种基于像素级原型对比度的弱监督语义分割方法，通过两种直观的先验知识，对图像的不同视角和单个视角内进行执行，旨在实施跨视图特征语义一致性规则，并促进特征空间的内部（间）类一致性（离散度），从而提高了两个强基线模型的精度，并在 PASCAL VOC 2012 上实现了新的最先进水平。

Oct, 2021

自监督 Vision Transformer 的蒸馏用于弱监督少样本分类与分割

我们提出了一种利用自监督预训练的视觉 Transformer（ViT）来解决弱监督少样本图像分类和分割的方法，通过自注意力机制，利用自监督 ViT 的标记表示，通过独立的任务头预测分类和分割结果。实验结果表明，我们的模型在不需要像素级标签的情况下能够有效地学习分类和分割，只使用图像级别标签，并且在少量或无像素级标签的情况下表现出显著的性能提升。

Jul, 2023

GETAM：针对弱监督语义分割的梯度加权元素级 Transformer 注意力图

本文针对弱监督下的语义分割问题，提出了基于 Transformer 的方法，并引入了 Gradient weighted Element wise Transformer Attention Map（GETAM）来提高分类器的效果，并在 PASCAL VOC 和 COCO 数据集上实现了优于现有技术的结果。

Dec, 2021

SegViT: 纯视觉 Transformer 的语义分割

本文讲述了使用 Vision Transformers 来进行语义分割的能力，提出了 SegVit 模型，并介绍了 Attention-to-Mask（ATM）模块和基于查询的下采样（QD）和上采样（QU）技术，用于构建 Shrunk 结构来减小计算量。实验证明，使用 ATM 模块的 SegVit 模型在 ADE20K 数据集上优于使用常规 ViT 骨干网络的 SegVit 模型，并在 COCO-Stuff-10K 和 PASCAL-Context 数据集上达到了新的排名最佳性能。

Oct, 2022

弱监督语义分割的注意力图背景噪声消除

基于 Conformer 的 TransCAM 方法在弱监督语义分割中解决了背景噪声的问题，减少了背景噪声的影响，提高了伪标签的准确性。在实验中，我们的模型在 PASCAL VOC 2012 验证数据上达到了 70.5% 的分割性能，在测试数据上达到了 71.1% 的分割性能，在 MS COCO 2014 数据上达到了 45.9% 的分割性能，优于 TransCAM 方法。

Apr, 2024

SegViTv2: 使用纯视觉 Transformer 探索高效持续语义分割

使用 Vision Transformers 进行语义分割的研究，提出了 SegViTv2，通过全局注意力机制和轻量级 Attention-to-Mask 模块构建出性能更高的解码器、通过 Shrunk++ 结构降低编码器的计算成本，同时在持续学习的环境下实现近乎零遗忘。实验结果表明，SegViT 优于当前流行的语义分割方法。

Jun, 2023

基于 Token 对比的弱监督语义分割

本研究提出了 Token Contrast (ToCo)，一种用于解决 Vision Transformer（ViT）在弱监督语义分割 (WSSS) 中过度平滑的问题，是革新的 Class Activation Map（CAM）的一种实验。ToCo 采取 Patch Token Contrast（PTC）和 Class Token Contrast（CTC）的方式，有效地提高了语义分类精度，与多阶段的最先进方法相当。

Mar, 2023