Jun, 2021

视觉置换器:一种类 MLP 的置换架构用于视觉识别

TL;DR本文提出 Vision Permutator,这是一种类似于 MLP 的架构,用于视觉识别。通过在高度和宽度维度上分别编码特征表示,Vision Permutator 能够捕捉沿一个空间方向的长程依赖关系,同时保留另一个方向上的精确位置信息。在 ImageNet 数据集上,使用仅有 25M 可学习参数的 Vision Permutator 在不使用大规模训练数据(如 ImageNet-22k)的情况下可实现 81.5%的 top-1 准确性,比大多数 CNN 和视觉变换器都要好。