Dec, 2023

MABViT - 改进的注意力模块增强视觉 Transformer

TL;DR我们提出了一种新颖的变压器变体,在注意力块中集成了非线性处理,以解决在图像分类任务中并行运行 MLP 和注意力块导致性能下降的问题。我们的实验结果表明,基于 GLU 的激活函数超过了当前的 Vision Transformers 在 ImageNet-1K 数据集上的 S / 16 变体,同时使用更少的参数,且超过了 B / 16 变体使用仅一半的参数。此外,我们还展示了使用 GELU 激活函数变体来验证我们的断言。最后,我们证明了 MABViT 变体在深度变压器中的潜力超过了标准结构。