Nov, 2022

可训练前馈核线性自注意力近似

TL;DR本文旨在将可训练的核方法的思想扩展到逼近 Transformer 架构的自注意机制,以实现更快的计算和更高的准确率。