AAAIMay, 2021

少即是多:在视觉 Transformer 网络中降低注意力

TL;DR我们提出了一种基于层次结构以及多层感知器与自注意力模块相结合的 Less attention vIsion Transformer(LIT)来提高特征提取效率,并通过学习可变形 Token 合并模块自适应的融合不均匀的信息块,以达到在图像分类、物体检测和实例分割等图像识别任务中具有很好的性能。