May, 2023

基于显著掩膜引导的视觉 Transformer 用于细粒度分类

TL;DR本文提出了一个简单而有效的 Salient Mask-Guided Vision Transformer(SM-ViT)方法来在精细 - grained 视觉分类(FGVC)问题中捕捉潜在的可区分特征,进而提高视觉 Transformer 模型的分类性能。实验证明,SM-ViT 比现有的基于 ViT 的方法表现更优秀,需要更少的资源和较低的输入图像分辨率。