LongLoRA: 长文本大语言模型的高效微调

Sep, 2023

LongLoRA: 长文本大语言模型的高效微调

LongLoRA: Efficient Fine-tuning of Long-Context Large Language Models

Yukang Chen, Shengju Qian, Haotian Tang, Xin Lai, Zhijian Liu...

TL;DRLongLoRA 是一种高效的微调方法，通过有限的计算成本扩展了预训练大型语言模型（LLMs）的上下文大小。

Abstract

We present longlora, an efficient fine-tuning approach that extends the context sizes of pre-trained large language models (llms), with li

longlora context extension fine-tuning llms computation saving

发现论文，激发创造

LongQLoRA：扩展大型语言模型上下文长度的高效有效方法

LongQLoRA 是一种高效且有效的方法，可以使用较少的训练资源扩展大语言模型的上下文长度。

Nov, 2023

SinkLoRA：增强效率与聊天能力的大型长文本语言模型

扩展 Transformer 模型以适应更长的序列长度是一项关键挑战，本文提出了 SinkLoRA 作为应对策略，通过改进工作分配和应用高效的缓存压缩算法来提高模型性能。

Jun, 2024

LLoCO：离线学习长上下文

通过上下文压缩和领域内参数高效微调，我们提出了一种解决大型语言模型处理长篇内容的挑战的新方法，使得 LLM 能够创建原始上下文的简洁表示，并有效地检索相关信息以准确回答问题。我们介绍了 LLoCO，一种通过使用 LoRA 组合上下文压缩、检索和参数高效微调的技术，将 4k 个令牌的 LLaMA2-7B 模型的有效上下文窗口扩展到处理高达 128k 个令牌。在几个长上下文问答数据集上对我们的方法进行评估，结果显示 LLoCO 在推理过程中使用 $30 imes$ 更少的令牌，显著优于上下文学习，实现了高达 $7.62 imes$ 的加速，大大降低了长文档问答的成本，为高效处理长上下文提供了有希望的解决方案。我们的代码公开可用于该 https URL。

Apr, 2024

SuperLoRA: 多层注意力模块参数高效统一适应

提出了一个称为 SuperLoRA 的广义框架，将不同的 LoRA 变体统一并扩展，通过引入分组、折叠、洗牌、投影和张量分解等方法，SuperLoRA 相对于其他 LoRA 变体具有更高的灵活性，在转移学习任务中表现出卓越的性能，尤其在极低参数的情况下表现出色。

Mar, 2024

OLoRA: 正交低秩对大型语言模型的适应

OLoRA 是对 LoRA 方法的增强，利用 QR 分解通过正交矩阵初始化来加速 LLM 训练的收敛速度，同时保留 LoRA 的高效特性，例如可训练参数数量和 GPU 内存占用，实证评估结果显示，OLoRA 不仅收敛更快，而且在各种语言建模任务上表现出更好的性能，为 LLM 的精细调整提供了更高效和可访问性的可能，从而促进自然语言应用的广泛采用和创新。

Jun, 2024

LoRA Land: 310 微调 LLM 模型媲美 GPT-4 的技术报告

LoRA 是一种使用较少参数和内存的训练方法，研究表明，在低秩适配器的支持下，LoRA fine-tuned 模型在多个任务上表现超过基准模型 34 个百分点和 GPT-4 10 个百分点；此外，他们开发了 LoRAX 多模型推理服务器，支持多个 LoRA fine-tuned 模型在单个 GPU 上运行，以展示使用多个专用 LLM 相对于单个通用 LLM 的质量和成本效益。

Apr, 2024

扩展 Llama-3 上下文十倍于一夜之间

通过 QLoRA 的微调，我们将 LLama-3-8B-Instruct 的上下文长度从 8K 扩展到 80K。整个训练周期非常高效，在一台 8xA800（80G）GPU 机器上仅需 8 小时。生成的模型在广泛的评估任务中表现出优越性能，如 NIHS、主题检索和长上下文语言理解；同时，它还很好地保留了短上下文的原始能力。这种显著的上下文扩展主要归功于由 GPT-4 生成的仅 3.5K 个合成训练样本，这表明 LLMs 具有潜在的（尽管在很大程度上被低估的）扩展原始上下文长度的能力。事实上，通过提供更多计算资源，上下文长度可以进一步扩展到 80K 之外。因此，团队将公开发布所有资源（包括数据、模型、数据生成流水线、训练代码），以便促进来自社区的未来研究：https://github.com/FlagOpen/FlagEmbedding。

Apr, 2024

参数高效的多语言摘要：实证研究

本研究通过使用 Parameter-Efficient Fine-Tuning 中的 Low-Rank Adaptation (LoRA) 探索了复杂且未被充分研究的多语言摘要任务的潜力，研究发现 LoRA 在低数据情况和跨语言转移中表现出色，当模型增大时，LoRA 和完全微调之间的性能差距减小，同时，继续训练 LoRA 获得了最佳的少样本跨语言转移表现。

Nov, 2023

MixLoRA：基于 LoRA 的专家混合大语言模型微调增强

提出了一种基于 LoRA 的资源高效稀疏 MoE 模型构建方法，名为 MixLoRA，能够在消费级 GPU 上实现多个专家模型的并行微调，减少了 GPU 内存消耗 41% 和训练过程中的延迟 17%。

Apr, 2024

LoRA: 大型语言模型的低秩适应

本文提出了一种低秩适应方法（Low-Rank Adaptation，简称 LoRA），通过将可训练秩分解矩阵注入变压器结构的每个层中，极大地减少了下游任务中的可训练参数，并且性能与微调相当或更好，同时具有更高的训练吞吐量和没有额外推理延迟，这解决了大规模预训练模型对于微调参数和 GPU 内存占用过高的问题。

Jun, 2021