通过分解位置向量探索大型语言模型的上下文窗口
提出了一种新颖的语义压缩方法,使得基于 Transformer 的大型语言模型(LLM)能够适用于长度为原先的 6-8 倍的文本,而无需进行显著的计算开销或需要微调。该方法通过信息论中的源编码概念和使用预训练模型,减少长输入的语义冗余后再传递给 LLM 进行下游任务。实验结果表明,该方法有效地扩展了 LLM 在包括问答、摘要、少样本学习和信息检索等任务中的上下文窗口,并且在减少相关计算开销的同时能够保持生成文本的流畅性。
Dec, 2023
本文介绍了一种名为 Position Interpolation 的方法,它扩展了 RoPE-based pretrained LLMs 的上下文窗口大小,可以达到 32768,而且只需要最小限度的微调,同时在需要长上下文的各种任务中(包括密码检索、语言建模和长文档摘要等)展示了强大的实证结果。
Jun, 2023
本文介绍了 Positional Skip-wisE(PoSE)训练方法,用于将大型语言模型(LLMs)高效地适应于极长的上下文窗口。通过在训练过程中使用具有操作位置索引的固定上下文窗口来模拟长输入,PoSE 将训练长度与目标上下文窗口大小分离。实验证明,与在完整长度上进行微调相比,PoSE 大大降低了内存和时间开销,并对性能影响很小。利用这一优势,我们成功将 LLaMA 模型扩展到了 128k 标记。此外,我们在实验中证实了 PoSE 与所有基于 RoPE 的 LLMs 和各种位置插值策略是兼容的。值得注意的是,通过解耦微调长度和目标上下文窗口,PoSE 在理论上可以无限扩展上下文窗口,仅受推理内存使用的限制。随着高效推理技术的不断发展,我们相信 PoSE 在进一步扩展上下文窗口方面具有巨大的潜力。
Sep, 2023
本研究介绍了一种新颖的 RoPE 扩展方法,通过调整 RoPE 的基础频率和缩放注意力 logits,帮助 LLMs 高效适应更大的上下文窗口,并验证了这种方法在微调性能和稳健性方面的优越性。
Jan, 2024
现代大型语言模型(LLMs)通常使用固定的上下文长度进行训练,但这限制了它们在评估时能处理的输入序列的长度。为了在训练时间上下文长度之外的较长序列上使用这些模型,可以采用不断增长的上下文长度外推方法。本文对现有的上下文长度外推方法进行了广泛调研,并介绍了一些新的设计,特别是一种用于修改位置编码基础的截断策略。我们使用三个新的评估任务(FreeFormQA,AlteredNumericQA 和 LongChat-Lines)以及困惑度进行了测试,并将这些任务作为公共数据集发布在 HuggingFace 上。我们发现线性标度是扩展上下文长度的最佳方法,并且显示在评估时使用更长的标度可以获得进一步的收益。我们还发现在截断基础中存在有希望的推测能力。为了支持进一步的研究,我们发布了三个新的 13B 参数长上下文模型,名为 Giraffe:从基础 LLaMA-13B 训练的 4k 和 16k 上下文模型,以及从基础 LLaMA2-13B 训练的 32k 上下文模型。我们还发布了复制我们结果的代码。
Aug, 2023
本文调查了扩展序列长度的技术和方法,包括架构修改和注意机制的改变等多种方法,并讨论了当前方法的局限性和未来研究方向建议,强调了序列长度对大型语言模型进一步发展的重要性。
Feb, 2024
大型语言模型(LLM)存在位置偏差,难以利用长篇上下文中间或结尾的信息。我们的研究通过探测其隐藏表示来探究 LLMs 的长篇上下文推理能力。我们发现,虽然 LLMs 编码目标信息的位置,但在生成准确回答时往往未能充分利用这一特性。这揭示了信息检索和利用之间的不一致,形成了一种 “知道但不说” 的现象。我们进一步分析了提取时间与最终准确性之间的关系,从而揭示了 Transformer 模型的基本机制。
Jun, 2024
本文研究了大型语言模型中的位置偏见问题,发现注意力权重和因果性注意掩码是位置偏见的微观表现,提出了通过调整位置隐状态来减轻位置偏见的方法,并通过在多个任务上进行实验验证了该方法的有效性和普适性。
Jun, 2024
建议一种基于连续长度外推(CLEX)的 Transformer-based Large Language Models (LLMs),可将 context window 扩展到训练序列长度的 4 倍或 8 倍,并在实际任务中表现出竞争性性能。
Oct, 2023