Oct, 2022

LSG 注意力机制:将预训练的 Transformer 推广到长序列

TL;DR本研究提出了 LSG attention 机制以解决 Transformer 模型自注意力机制中违反 $O (n^2)$ 的限制,同时还提出了相应工具和方法用于新模型的训练和现有模型的调整。实验结果表明,LSG attention 机制在长文本的分类和摘要任务中效率优秀,也可以用于有效地扩展预训练模型的序列长度。