ICMLMay, 2021
EL-Attention: 面向生成的记忆效率高的无损注意力
EL-Attention: Memory Efficient Lossless Attention for Generation
Yu Yan, Jiusheng Chen, Weizhen Qi, Nikhil Bhendawade, Yeyun Gong...
TL;DR提出了一种名为 EL-attention 的记忆高效的无损注意力机制,它避免了传统基于 cache 的多头注意力机制的高运算代价,通过扩展 query 并保持 key 和 value 的共享来构造注意力结果,从而实现了与传统方法相同的结果,在不损失准确性的情况下,将现有模型的推断速度提高了 1.6 倍至 5.3 倍。