Jul, 2020

Transformer 是否需要深度长程记忆

TL;DR通过一系列干预措施,研究表明使用更少的长时记忆和限制网络低层的注意力范围,可以实现与 Transformer-XL 相当的性能,并且可以获得更好的性能。