May, 2022

面向带遮挡图像建模的绿色分层视觉Transformer

TL;DR本文介绍了一种高效的逐层视觉变换(ViT)的 Masked Image Modeling(MIM)方法,通过一些关键的设计,使得MIM可以在可见的patch上进行可控的self-attention,并通过Sparse Convolution的方法实现了卷积层的高效计算,实验表明,该方法可以使得训练速度提高约2.7倍,显存使用率减少70%。