May, 2021

ResT: 用于视觉识别的高效 Transformer

TL;DR本文提出了一种高效的多尺度视觉 Transformer 模型,名为 ResT,可作为图像识别的通用骨干。它通过一些优势来应对传统 Transformer 模型在应对分辨率固定的原始图像中存在的缺陷, 特别是建立了一种内存高效的多头自注意力机制、一种空间关注的位置编码方法,并将贴片嵌入设计为一系列重叠卷积运算,最终提高了大量原始图像识别和下游任务的性能。