ICLRSep, 2020

重塑注意力:使用 Performer

TL;DR本文介绍 Performers,这是 Transformer 结构,可以通过使用一种称为 FAVOR + 的新方法来估计常规(softmax)全秩注意力 Transformers,其具有可证明的准确性,但仅使用线性(而不是二次)空间和时间复杂性,而不依赖于任何先验知识,如稀疏度或低秩性。Performers 是线性结构,可以与常规 Transformers 完全兼容,并具有较强的理论保证。在各种任务上对 Performers 进行了测试,并展示了其在各自领域内对其他有效稀疏和密集关注方法的竞争力,展示了 Performers 所利用的新型关注学习范式的效果。