Sep, 2023

PoSE: 通过位置跳跃训练实现 LLMs 的高效上下文窗口扩展

TL;DR本文介绍了 Positional Skip-wisE(PoSE)训练方法,用于将大型语言模型(LLMs)高效地适应于极长的上下文窗口。通过在训练过程中使用具有操作位置索引的固定上下文窗口来模拟长输入,PoSE 将训练长度与目标上下文窗口大小分离。实验证明,与在完整长度上进行微调相比,PoSE 大大降低了内存和时间开销,并对性能影响很小。利用这一优势,我们成功将 LLaMA 模型扩展到了 128k 标记。此外,我们在实验中证实了 PoSE 与所有基于 RoPE 的 LLMs 和各种位置插值策略是兼容的。值得注意的是,通过解耦微调长度和目标上下文窗口,PoSE 在理论上可以无限扩展上下文窗口,仅受推理内存使用的限制。随着高效推理技术的不断发展,我们相信 PoSE 在进一步扩展上下文窗口方面具有巨大的潜力。