ACLMay, 2019

Transformer 中的自适应注意力跨度

TL;DR本研究通过提出一种自我注意力机制,可以学习其最优的注意范围,从而显着扩展了 Transformer 中使用的最大上下文大小,同时保持对内存占用和计算时间的控制。在字符级语言建模任务中,我们使用最大上下文为 8k 个字符,在 text8 和 enwiki8 上实现了最先进的性能。