并行上下文编码的长文本语言建模
建议一种基于连续长度外推(CLEX)的 Transformer-based Large Language Models (LLMs),可将 context window 扩展到训练序列长度的 4 倍或 8 倍,并在实际任务中表现出竞争性性能。
Oct, 2023
本文介绍了一种名为多尺度位置编码(Ms-PoE)的简单而有效的插件式方法,用于增强大型语言模型(LLMs)处理位于上下文中部的相关信息的能力,并通过广泛的实验证明了该方法的有效性。
Mar, 2024
本研究介绍了一种新颖的 RoPE 扩展方法,通过调整 RoPE 的基础频率和缩放注意力 logits,帮助 LLMs 高效适应更大的上下文窗口,并验证了这种方法在微调性能和稳健性方面的优越性。
Jan, 2024
现代自然语言处理(NLP)应用中的嵌入模型在信息检索和大规模生成方面起着重要作用,本文探索了现有嵌入模型的上下文窗口扩展,将限制提升到 32k,而不需要额外的训练。我们通过新构建的 LongEmbed 基准测试,对目前的嵌入模型在长文本检索上的性能进行了评估,并发现有巨大的改进空间。我们实验表明训练前的扩展策略(如位置插值)可以有效地将现有嵌入模型的上下文窗口扩展多倍,无论其原始上下文是 512 还是 4k 以上。对于使用绝对位置编码(APE)的模型,我们展示了进一步微调以取得显著性能提升并严格保留短序列输入的原始行为的可能性。对于使用旋转位置嵌入(RoPE)的模型,当使用 RoPE 特定方法(如 NTK 和 SelfExtend)时,我们观察到显著的增强效果,表明 RoPE 在上下文窗口扩展方面的优越性。为了促进未来的研究,我们发布了 E5-Base-4k 和 E5-RoPE-Base 数据集,并提供了 LongEmbed 基准测试。
Apr, 2024
本文提出了一种名为 Parallel Context Windows (PCW) 的方法,可缓解任何现成的 LLM 的上下文窗口限制,该方法通过将长上下文分成适合于模型的块(“窗口”)来限制注意机制的应用范围,并在窗口之间重用位置嵌入。我们在模型的大小范围内测试了 PCW 方法,并为具有不同输入和输出空间的任务展示了实质性的改进。该结果为研究将 Parallel Context Windows 应用于其他需要长文本序列的设置提供了动机。
Dec, 2022
提出了一种新颖的语义压缩方法,使得基于 Transformer 的大型语言模型(LLM)能够适用于长度为原先的 6-8 倍的文本,而无需进行显著的计算开销或需要微调。该方法通过信息论中的源编码概念和使用预训练模型,减少长输入的语义冗余后再传递给 LLM 进行下游任务。实验结果表明,该方法有效地扩展了 LLM 在包括问答、摘要、少样本学习和信息检索等任务中的上下文窗口,并且在减少相关计算开销的同时能够保持生成文本的流畅性。
Dec, 2023
LargeRoPE 通过识别和利用位置插值中的非均匀性,引入渐进扩展策略和调整,将预训练语言模型的上下文窗口扩展到 2048k tokens,同时保持原始短上下文窗口的性能。
Feb, 2024
提出了一种动态根据输入语境调整的上下文自适应位置编码方法,通过实验验证在真实世界数据集上改善了模型性能,提升了训练长度和长度泛化能力,同时保留了局部和反局部信息。
May, 2024
我们提出了一种名为 E2-LLM 的高效和极长扩展的大型语言模型方法,通过减少计算成本并对不同样本进行增强方法来在推理时支持任意上下文长度,实验结果表明其在具有挑战性的长上下文任务中的有效性。
Jan, 2024