局部到全局的视觉Transformer自注意力

Jul, 2021

Local-to-Global Self-Attention in Vision Transformers

Jinpeng Li, Yichao Yan, Shengcai Liao, Xiaokang Yang, Ling Shao

TL;DR本研究提出了多通路结构的Transformer模型，实现局部到全局的多粒度特征推理，相较于现有的分层设计模型，在增加了极小的计算量的同时，在图像分类和语义分割任务上取得了显著的提高。

Abstract

transformers have demonstrated great potential in computer vision tasks. To avoid dense computations of self-attentions in high-resolution