Apr, 2023

WeakTr: 探索用于弱监督语义分割的普通视觉 Transformer

TL;DR本文探讨了 Vision Transformer (ViT) 在弱监督语义分割 (WSSS) 中的属性。在提出的 WeakTr 框架中,通过自适应融合自注意力图来具有更完整的对象的高质量 CAM 结果。在标准基准测试中,WeakTr 实现了最先进的 WSSS 性能,即在 PASCAL VOC 2012 的 val set 上达到 78.4% 的 mIoU,在 COCO 2014 的 val set 上达到 50.3% 的 mIoU。