Dec, 2022

可长度推广的 Transformer

TL;DR本文探讨了 Transformers 中的位置建模以及如何提高其对于长文本的预测能力,通过引入相对位置编码和块状因果注意力机制,可以有效提高模型的预测性能。