Jun, 2021

速览注视视觉变换器

TL;DR提出一种效率更高的视觉 Transformer 模型,命名为 Glance-and-Gaze Transformer (GG-Transformer),其通过两个并行的分支 ——Glance 和 Gaze,分别实现自适应扩张分区的自注意力机制与简单深度卷积层的局部图像上下文补偿,从而实现长距离依赖性和局部区域信息的高效建模,在多个视觉任务和基准测试中都表现出了优秀的性能。