LongSkywork:用于大型语言模型中高效扩展上下文长度的训练方法
我们介绍了一系列支持高达 32,768 个令牌的有效上下文窗口的长上下文 LLMs。通过从 Llama 2 开始的持续预训练,我们的模型系列是在更长的训练序列和上采样长文本的数据集上构建的。我们在语言模型、合成上下文探索任务以及广泛的研究基准上进行了广泛的评估。在研究基准上,我们的模型在大多数常规任务上均取得了一致的改进,并在长上下文任务上相对于 Llama 2 取得了显著的提升。值得注意的是,通过一种耗时效率高且不需要人工注释长指导数据的指令调整过程,70B 变体已经超过了 gpt-3.5-turbo-16k 在一套长上下文任务中的整体性能。除了这些结果,我们对我们方法的各个组成部分进行了深入分析。我们深入研究了 Llama 的位置编码,并讨论了它在建模长依赖性方面的局限性。我们还研究了预训练过程中各种设计选择的影响,包括数据混合和序列长度的训练课程 - 我们的消融实验表明,在预训练数据集中有大量长文本并不是达到强大性能的关键,我们从经验上验证了长上下文持续预训练相对于从头开始的长序列预训练更高效且同样有效。
Sep, 2023
在极限标签分类领域中,本研究介绍了一种专门的基准测试(LIConBench),重点关注长上下文学习。我们评估了 13 个长上下文大语言模型在我们的基准测试上,发现在 20K 的令牌长度下,大部分大语言模型表现相对良好且受益于利用长上下文窗口,然而,在上下文窗口超过 20K 后,除了 GPT-4 之外,大部分大语言模型表现出明显下降。这表明现有大语言模型在处理和理解长的上下文丰富序列时存在显著差距。我们的研究揭示了当前大语言模型在长上下文理解和推理方面仍存在挑战,我们相信 LIConBench 可以作为未来长上下文大语言模型的更切实可行的评估。
Apr, 2024
本文调查了扩展序列长度的技术和方法,包括架构修改和注意机制的改变等多种方法,并讨论了当前方法的局限性和未来研究方向建议,强调了序列长度对大型语言模型进一步发展的重要性。
Feb, 2024
通过引入 LongBench,对 8 个大型语言模型进行全面评估,我们发现商业模型(GPT-3.5-Turbo-16k)优于其他开源模型,但在更长的语境下仍存在困难;在较长序列上进行的缩放位置嵌入和微调,在长语境理解方面带来了实质性的改进;检索等上下文压缩技术对于长上下文能力较弱的模型带来了改进,但性能仍落后于具有强大长上下文理解能力的模型。
Aug, 2023
基于 LooGLE 评估模型的表现,研究显示商业模型在短依赖任务上胜过开源模型,同时也揭示了长依赖任务的困难,并指出在短问答任务中检索式技术有着明显的好处,而扩展上下文窗口长度的策略对于长上下文理解的影响有限。
Nov, 2023
扩展大型语言模型以有效处理长篇背景需要依据相似长度的输入序列进行指导微调,本文提出了 LongAlign 框架,包括长篇背景对齐的指导数据、训练和评估方法,通过 Self-Instruct 构建了包含各种长篇背景任务的数据集,采用打包和排序批处理策略加快有差异长度分布的数据的监督微调,引入了损失权重方法以平衡打包训练过程中不同序列对损失的贡献,并引入了 LongBench-Chat 测试基准来评估对 1 万至 10 万字查询的指导跟进能力,实验证明 LongAlign 在长篇背景任务中性能比现有的大型语言模型框架提升了 30%,同时保持了对短语、通用任务的熟练处理能力。
Jan, 2024
我们提出了一种名为 E2-LLM 的高效和极长扩展的大型语言模型方法,通过减少计算成本并对不同样本进行增强方法来在推理时支持任意上下文长度,实验结果表明其在具有挑战性的长上下文任务中的有效性。
Jan, 2024
本研究探讨使用持续预训练重现将语言模型的上下文长度扩展到 128K,重点关注数据工程。我们假设长篇背景建模,特别是 “能够在任意输入位置利用信息” 的能力在大规模预训练中已经获得,而且这种能力可以通过对适当数据混合进行轻量级持续预训练来延伸到比训练中看到的上下文更长的情况(例如,从 4K 延伸到 128K)。我们研究了持续预训练的 “数量” 和 “质量”:(1)对于数量,我们表明 5 亿到 50 亿个标记足以使模型能够检索到 128K 上下文中的任何信息;(2)对于质量,我们的结果同样强调了 “领域平衡” 和 “长度上采样”。具体来说,我们发现像书籍这样的特定领域上的长数据简单上采样,这是现有工作的常见做法,会得到次优性能,而平衡的领域混合是重要的。我们证明使用 1B-50B 个标记的数据对整个模型进行持续预训练是将语言模型的上下文长度扩展到 128K 的一种有效和经济的策略。我们的方法胜过强大的开源长篇模型,并缩小了与 GPT-4 128K 等前沿模型之间的差距。
Feb, 2024