Oct, 2023

通过在分段序列上训练扩展语言模型的输入上下文

TL;DR在没有架构更改和额外存储成本的情况下,通过对分段序列的训练和基于插值的方法来扩展绝对位置嵌入,我们开发了一种训练过程,以扩展预训练模型的输入上下文大小。我们的方法能够将输入上下文扩展 4 倍,同时改善困惑度。