Jun, 2021

Refiner: 为视觉 Transformer 优化自注意力

TL;DR通过引入一个概念简单的方案,称为 Refiner,直接改进 Vision Transformers 的自注意映射,该方案探索了一种名为 attention expansion 的扩张机制,可以将多头注意力地图投射到高维空间以促进其多样性,然后应用卷积来增强注意力地图的局部模式,成功在 ImageNet 上实现了 86% 的准确性。