Oct, 2022

用均匀注意力为视觉 Transformer 提供支持

TL;DR通过研究 Vision Transformers 中的 self-attention 机制密度,得出了密集交互对模型的重要性,并提出了一种新的方法 ——Context Broadcasting (CB),有效地提高了模型的容量和泛化能力。