CVPRMar, 2023
从标记稀疏化视角提高视觉 Transformer 的效率
Making Vision Transformers Efficient from A Token Sparsification View
Shuning Chang, Pichao Wang, Ming Lin, Fan Wang, David Junhao Zhang...
TL;DR本文介绍了一种基于语义标记的 ViT 模型,可以用于图像分类以及物体检测和实例分割等任务,并通过对空间中的池化图像标记进行 attention 的方法,来取代大量的图像标记,从而实现了网络的降维升效。