Sep, 2022

MobileViTv3:具备本地、全局和输入特征的简单有效融合的移动友好视觉变换器

TL;DRMobileViT 使用卷积神经网络和视觉 transformer 结合,提出了 MobileViTv3-block 来处理模型缩放以及简化学习任务问题,其在 ImageNet-1k、ADE20K、COCO 和 PascalVOC2012 数据集上表现更优。