ACLJan, 2019

Transformer-XL: 超越固定长度上下文的关注式语言模型

TL;DR提出了一种名为 Transformer-XL 的神经架构,它能够在语言模型的设定中超越固定长度的依赖关系,并且不会破坏时间上的一致性。通过分段级别的循环机制和一种新颖的位置编码方案,Transformer-XL 不仅能够捕捉更长期的依赖关系,而且还解决了上下文破碎问题。在评估期间,它的速度比普通的 Transformers 要快 1,800 多倍,并且在短序列和长序列上表现更好。实验结果显示,在多个语料库上,Transformer-XL 都比目前的最先进结果表现要好。