LongQLoRA:扩展大型语言模型上下文长度的高效有效方法
通过 QLoRA 的微调,我们将 LLama-3-8B-Instruct 的上下文长度从 8K 扩展到 80K。整个训练周期非常高效,在一台 8xA800(80G)GPU 机器上仅需 8 小时。生成的模型在广泛的评估任务中表现出优越性能,如 NIHS、主题检索和长上下文语言理解;同时,它还很好地保留了短上下文的原始能力。这种显著的上下文扩展主要归功于由 GPT-4 生成的仅 3.5K 个合成训练样本,这表明 LLMs 具有潜在的(尽管在很大程度上被低估的)扩展原始上下文长度的能力。事实上,通过提供更多计算资源,上下文长度可以进一步扩展到 80K 之外。因此,团队将公开发布所有资源(包括数据、模型、数据生成流水线、训练代码),以便促进来自社区的未来研究:https://github.com/FlagOpen/FlagEmbedding。
Apr, 2024
QLoRA 是一种高效的微调方法,它通过 4 位量化的预训练语言模型将梯度反向传递到低秩适配器中,以降低内存使用,同时保持全 16 位微调任务性能。它能够优化模型性能,并且在更小的内存占用下使用小的高质量数据集进行微调,甚至达到先前最先进性能等级的状态。
May, 2023
我们介绍了一系列支持高达 32,768 个令牌的有效上下文窗口的长上下文 LLMs。通过从 Llama 2 开始的持续预训练,我们的模型系列是在更长的训练序列和上采样长文本的数据集上构建的。我们在语言模型、合成上下文探索任务以及广泛的研究基准上进行了广泛的评估。在研究基准上,我们的模型在大多数常规任务上均取得了一致的改进,并在长上下文任务上相对于 Llama 2 取得了显著的提升。值得注意的是,通过一种耗时效率高且不需要人工注释长指导数据的指令调整过程,70B 变体已经超过了 gpt-3.5-turbo-16k 在一套长上下文任务中的整体性能。除了这些结果,我们对我们方法的各个组成部分进行了深入分析。我们深入研究了 Llama 的位置编码,并讨论了它在建模长依赖性方面的局限性。我们还研究了预训练过程中各种设计选择的影响,包括数据混合和序列长度的训练课程 - 我们的消融实验表明,在预训练数据集中有大量长文本并不是达到强大性能的关键,我们从经验上验证了长上下文持续预训练相对于从头开始的长序列预训练更高效且同样有效。
Sep, 2023
通过上下文压缩和领域内参数高效微调,我们提出了一种解决大型语言模型处理长篇内容的挑战的新方法,使得 LLM 能够创建原始上下文的简洁表示,并有效地检索相关信息以准确回答问题。我们介绍了 LLoCO,一种通过使用 LoRA 组合上下文压缩、检索和参数高效微调的技术,将 4k 个令牌的 LLaMA2-7B 模型的有效上下文窗口扩展到处理高达 128k 个令牌。在几个长上下文问答数据集上对我们的方法进行评估,结果显示 LLoCO 在推理过程中使用 $30 imes$ 更少的令牌,显著优于上下文学习,实现了高达 $7.62 imes$ 的加速,大大降低了长文档问答的成本,为高效处理长上下文提供了有希望的解决方案。我们的代码公开可用于该 https URL。
Apr, 2024
我们提出了一种名为 E2-LLM 的高效和极长扩展的大型语言模型方法,通过减少计算成本并对不同样本进行增强方法来在推理时支持任意上下文长度,实验结果表明其在具有挑战性的长上下文任务中的有效性。
Jan, 2024
现代大型语言模型(LLMs)通常使用固定的上下文长度进行训练,但这限制了它们在评估时能处理的输入序列的长度。为了在训练时间上下文长度之外的较长序列上使用这些模型,可以采用不断增长的上下文长度外推方法。本文对现有的上下文长度外推方法进行了广泛调研,并介绍了一些新的设计,特别是一种用于修改位置编码基础的截断策略。我们使用三个新的评估任务(FreeFormQA,AlteredNumericQA 和 LongChat-Lines)以及困惑度进行了测试,并将这些任务作为公共数据集发布在 HuggingFace 上。我们发现线性标度是扩展上下文长度的最佳方法,并且显示在评估时使用更长的标度可以获得进一步的收益。我们还发现在截断基础中存在有希望的推测能力。为了支持进一步的研究,我们发布了三个新的 13B 参数长上下文模型,名为 Giraffe:从基础 LLaMA-13B 训练的 4k 和 16k 上下文模型,以及从基础 LLaMA2-13B 训练的 32k 上下文模型。我们还发布了复制我们结果的代码。
Aug, 2023
我们提出了一种量化感知的低秩自适应算法(QA-LoRA),通过使用分组运算符,增加量化的自由度,减少自适应的自由度,将大型语言模型(LLMs)权重量化以减少时间和内存使用,并将 LLM 和辅助权重自然地集成到一个量化模型中,而不损失准确性。我们应用 QA-LoRA 算法于 LLaMA 和 LLaMA2 模型系列,并在不同的微调数据集和下游场景中验证了其有效性。
Sep, 2023
LargeRoPE 通过识别和利用位置插值中的非均匀性,引入渐进扩展策略和调整,将预训练语言模型的上下文窗口扩展到 2048k tokens,同时保持原始短上下文窗口的性能。
Feb, 2024
通过在长文本生成过程中使用临时的 Lora 模块来嵌入信息,我们的提出的方法 Temp-Lora 有效地保留上下文知识,提高了生成质量,同时降低了计算成本。
Jan, 2024