CVPRMar, 2023

从标记稀疏化视角提高视觉 Transformer 的效率

TL;DR本文介绍了一种基于语义标记的 ViT 模型,可以用于图像分类以及物体检测和实例分割等任务,并通过对空间中的池化图像标记进行 attention 的方法,来取代大量的图像标记,从而实现了网络的降维升效。