Aug, 2021

具有线性复杂度的自适应多分辨率注意力

TL;DR本文介绍了一种名为 Adaptive Multi-Resolution Attention(AdaMRA)的新型高效 Transformer 结构,利用多分辨率多头自注意机制,采用核注意力且时间空间都线性地缩放,进一步提高了模型的处理能力。在多个基准测试中取得了最新的性能和效率。