May, 2021

一个无需关注机制的 Transformer

TL;DR本研究提出了 Attention Free Transformer (AFT) 框架,它采用了一种高效的元素级别的矩阵运算,不需要使用点积自注意力机制,通过引入位置偏移可以降低存储复杂度,同时实现了全局连接与本地化结合的空间权重共享。在 CIFAR10、Enwik8 和 ImageNet-1K 等任务上,实验表明 AFT 框架显示出优秀的性能和高效性。