ICMLMay, 2021

EL-Attention: 面向生成的记忆效率高的无损注意力

TL;DR提出了一种名为 EL-attention 的记忆高效的无损注意力机制,它避免了传统基于 cache 的多头注意力机制的高运算代价,通过扩展 query 并保持 key 和 value 的共享来构造注意力结果,从而实现了与传统方法相同的结果,在不损失准确性的情况下,将现有模型的推断速度提高了 1.6 倍至 5.3 倍。