Oct, 2022

SegViT: 纯视觉Transformer的语义分割

TL;DR本文讲述了使用Vision Transformers来进行语义分割的能力,提出了SegVit模型,并介绍了Attention-to-Mask(ATM)模块和基于查询的下采样(QD)和上采样(QU)技术,用于构建Shrunk结构来减小计算量。实验证明,使用ATM模块的SegVit模型在ADE20K数据集上优于使用常规ViT骨干网络的SegVit模型,并在COCO-Stuff-10K和PASCAL-Context数据集上达到了新的排名最佳性能。