Feb, 2024

面向扩展语言模型至 128K 上下文的数据工程

TL;DR本研究探讨使用持续预训练重现将语言模型的上下文长度扩展到 128K,重点关注数据工程。我们假设长篇背景建模,特别是 “能够在任意输入位置利用信息” 的能力在大规模预训练中已经获得,而且这种能力可以通过对适当数据混合进行轻量级持续预训练来延伸到比训练中看到的上下文更长的情况(例如,从 4K 延伸到 128K)。我们研究了持续预训练的 “数量” 和 “质量”:(1)对于数量,我们表明 5 亿到 50 亿个标记足以使模型能够检索到 128K 上下文中的任何信息;(2)对于质量,我们的结果同样强调了 “领域平衡” 和 “长度上采样”。具体来说,我们发现像书籍这样的特定领域上的长数据简单上采样,这是现有工作的常见做法,会得到次优性能,而平衡的领域混合是重要的。我们证明使用 1B-50B 个标记的数据对整个模型进行持续预训练是将语言模型的上下文长度扩展到 128K 的一种有效和经济的策略。我们的方法胜过强大的开源长篇模型,并缩小了与 GPT-4 128K 等前沿模型之间的差距。