Mar, 2022

块循环变压器

TL;DR本文提出 Block-Recurrent Transformer 模型,运用 transformer layer 实现序列的循环,以及利用 LSTM-style gates 实现参数可扩展性,改进了常规 transformer layer 对语言模型的瓶颈问题,效果优于 Transformer XL,模型已开源。