Aug, 2023

M2Former:多尺度细粒度视觉识别的补丁选择

TL;DR提出了一种多尺度补丁选择 (MSPS) 方法,以改善现有基于 Vision Transformers 的模型的多尺度能力。通过在多尺度 Vision Transformer 上的不同阶段选择不同尺度的显著补丁,并引入类令牌传递 (CTT) 和多尺度交叉注意力 (MSCA),以模拟选定的多尺度补丁之间的交叉尺度相互作用并完全反映在模型决策中,从而提高了特征分层的丰富物体表征并在多个广泛使用的细粒度视觉识别基准上优于 CNN-/ViT- 基模型的 M2Former。