ICLRJun, 2021

高效自监督视觉 Transformer 模型用于表示学习

TL;DR本文研究了发展高效的自监督视觉变换器(EsViT)的两种技术,第一,我们通过全面的实证研究显示具有稀疏自我注意力的多阶段架构可以显着减少建模复杂性,但代价是失去捕捉图像区域之间的细粒度对应关系的能力。第二,我们提出了新的预训练任务区域匹配,允许模型捕捉细粒度区域依赖性,从而显着提高了学习到的视觉表示的质量。我们的结果表明,结合这两种技术,EsViT 在 ImageNet 线性探针评估中达到 81.3%的 top-1,超过以前的艺术水平,吞吐量大约高一个数量级。在转移到下游线性分类任务时,EsViT 在 18 个数据集中的 17 个数据集上优于其受监督的对应物。代码和模型可公开获取:该 URL。