Sep, 2023

基础模型的长文本推理能力优化

TL;DR我们介绍了一系列支持高达 32,768 个令牌的有效上下文窗口的长上下文 LLMs。通过从 Llama 2 开始的持续预训练,我们的模型系列是在更长的训练序列和上采样长文本的数据集上构建的。我们在语言模型、合成上下文探索任务以及广泛的研究基准上进行了广泛的评估。在研究基准上,我们的模型在大多数常规任务上均取得了一致的改进,并在长上下文任务上相对于 Llama 2 取得了显著的提升。值得注意的是,通过一种耗时效率高且不需要人工注释长指导数据的指令调整过程,70B 变体已经超过了 gpt-3.5-turbo-16k 在一套长上下文任务中的整体性能。除了这些结果,我们对我们方法的各个组成部分进行了深入分析。我们深入研究了 Llama 的位置编码,并讨论了它在建模长依赖性方面的局限性。我们还研究了预训练过程中各种设计选择的影响,包括数据混合和序列长度的训练课程 - 我们的消融实验表明,在预训练数据集中有大量长文本并不是达到强大性能的关键,我们从经验上验证了长上下文持续预训练相对于从头开始的长序列预训练更高效且同样有效。