Aug, 2023

长颈鹿:在 LLM 中扩展上下文长度的探险

TL;DR现代大型语言模型(LLMs)通常使用固定的上下文长度进行训练,但这限制了它们在评估时能处理的输入序列的长度。为了在训练时间上下文长度之外的较长序列上使用这些模型,可以采用不断增长的上下文长度外推方法。本文对现有的上下文长度外推方法进行了广泛调研,并介绍了一些新的设计,特别是一种用于修改位置编码基础的截断策略。我们使用三个新的评估任务(FreeFormQA,AlteredNumericQA 和 LongChat-Lines)以及困惑度进行了测试,并将这些任务作为公共数据集发布在 HuggingFace 上。我们发现线性标度是扩展上下文长度的最佳方法,并且显示在评估时使用更长的标度可以获得进一步的收益。我们还发现在截断基础中存在有希望的推测能力。为了支持进一步的研究,我们发布了三个新的 13B 参数长上下文模型,名为 Giraffe:从基础 LLaMA-13B 训练的 4k 和 16k 上下文模型,以及从基础 LLaMA2-13B 训练的 32k 上下文模型。我们还发布了复制我们结果的代码。