Mar, 2024

ParFormer:使用并行的本地全局令牌混合和卷积注意力补丁嵌入的视觉 Transformer 基线

TL;DR该研究提出了 ParFormer 作为一种改进的 transformer 体系结构,通过将不同的 token mixer 集成到一个阶段中,从而提高特征提取能力。与传统的窗口移动方法不同,结合本地和全局数据可以精确表示短程和长程空间关系。通过并行的 token mixer 编码器以及卷积注意力模块,我们提出了 Enhance Patch Embedding for Token Mixer (CEPTM) 来改善 token mixer 的提取能力。全面的评估结果表明,我们的 ParFormer 在图像分类和目标识别等多个复杂任务中表现优于基于 CNN 和最先进的 transformer 的架构。提出的 CEPTM 在使用 Identity Mapping Token Mixer 时也对整体 MetaFormer 体系结构有所改善,提高了 0.5%的准确性。ParFormer 模型在准确性方面优于纯卷积模型和 transformer 模型的 ConvNeXt 和 Swin Transformer。此外,我们的模型在 ImageNet-1K 分类测试中取得了领先的混合 transformer 模型达到了有竞争力的 Top-1 得分。具体来说,我们的模型变种,参数为 11M,23M 和 34M 时,分别达到了 80.4%,82.1%和 83.1%的得分。