Dec, 2021

自注意力不需要 $O (n^2)$ 的内存

TL;DR提出一种对 attention 算法的简化,使其在处理长序列时更省内存,并对其进行扩展,以此降低 self-attention 的内存消耗,同时保证数值稳定性和可微分性,通过测试结果表明,这样可以让 self-attention 在推断和不同阶段的内存开销分别降低 59 倍和 32 倍。