ICLRFeb, 2022
通过 Token 重组加速视觉 Transformer:并非所有的修补程序都是您所需的
Not All Patches are What You Need: Expediting Vision Transformers via Token Reorganizations
Youwei Liang, Chongjian Ge, Zhan Tong, Yibing Song, Jue Wang...
TL;DR本论文提出了一种在 Vision Transformer 模型的前向推理过程中重新组织图像 tokens 的方法,以提高模型的计算效率和识别准确率。结果表明,该方法能够在保持相同的计算成本的前提下,提高模型的输入规模并提高模型的识别准确率。