CVPRJun, 2021

探索 Vision Transformers 用于细粒度分类

TL;DR研究提出了一种多阶段的 Vision Transformer 框架,用于细粒度图像分类,可在不需要架构变化的情况下定位信息图像区域。 Attention-guided 增强技术提高了模型性能,并在四个流行的细粒度基准测试中进行了实验,同时通过定性结果证明了模型的可解释性。