Jun, 2022

移动视觉 Transformer 的可分离自注意力

TL;DR提出了一种线性复杂度的分离 self-attention 方法,使用此方法的 mobileViTv2 模型在移动设备上运行速度为 MobileViT 的 3.2 倍,同时在 ImageNet 数据集上取得 75.6% 的 top-1 准确率,比 MobileViT 高 1%。