Mar, 2023

从标记稀疏化视角提高视觉Transformer的效率

TL;DR本文介绍了一种基于语义标记的ViT模型,可以用于图像分类以及物体检测和实例分割等任务,并通过对空间中的池化图像标记进行attention的方法,来取代大量的图像标记,从而实现了网络的降维升效。