ICLRFeb, 2022

通过 Token 重组加速视觉 Transformer:并非所有的修补程序都是您所需的

TL;DR本论文提出了一种在 Vision Transformer 模型的前向推理过程中重新组织图像 tokens 的方法,以提高模型的计算效率和识别准确率。结果表明,该方法能够在保持相同的计算成本的前提下,提高模型的输入规模并提高模型的识别准确率。