CVPRNov, 2021

利用多尺度令牌聚合的深层自注意力机制

TL;DR本文提出一种名为 SSA 的新型自注意力策略,能够使 Vision Transformer 模型在单个自注意力层上实现对多种尺度特征的建模,并得到了广泛验证和超越同类模型的结果。