ICMLNov, 2021

仅需采样(几乎)一次:通过伯努利采样实现线性代价自注意力

TL;DR本文介绍了一种基于二项分布采样的局部敏感哈希(LSH)注意力机制,可以将自注意力的复杂度从二次降到线性。我们在 GLUE 和 LRA 基准测试中测试该算法并发现性能优于标准的预训练变压器模型和其他自注意力方法。