ACLSep, 2020

可训练表示池化技术稀疏化 Transformer 模型

TL;DR我们提出了一种新方法,通过学习在训练过程中选择最具信息量的令牌表示方法来稀疏 Transformer 模型中的注意力,从而关注输入的特定部分。由于一个强大的可训练的 top-k 操作符,将二次时间和内存复杂度降低到亚线性水平。我们在一个具有挑战性的长文档摘要任务上的实验表明,即使是我们的简单基线表现也与当前的 SOTA 相当,通过可训练的池化技术,我们可以保持其最高质量,在训练过程中快 1.8 倍,推理时快 4.5 倍,并且在解码器中计算效率高达 13 倍。