OwLore:离群值加权的逐层采样低秩投影,用于内存高效的 LLM 微调
通过提出 Gradient Low-Rank Projection (GaLore) 的训练策略,本研究在大规模语言模型的预训练过程中实现全参数学习,并以更高的内存效率减少了高达 65.5% 的优化器状态内存使用,同时在多项任务上保持了效率和性能,展示出在具有 24GB 内存的消费级 GPU 上(例如 NVIDIA RTX 4090)进行 7B 模型的预训练的可行性。
Mar, 2024
通过观察 Low-Rank Adaptation 在 fine-tuning 任务中的层内特性,我们发现了一种不同层之间权重归一化的不寻常偏度,利用这一关键观察,我们发现了一种非常简单的训练策略 ——Layerwise Importance Sampled AdamW(LISA),它在减少内存消耗的同时,超越 LoRA 及全参数训练,在大范围设置的下游 fine-tuning 任务中表现出色。
Mar, 2024
LoRA 是一种使用较少参数和内存的训练方法,研究表明,在低秩适配器的支持下,LoRA fine-tuned 模型在多个任务上表现超过基准模型 34 个百分点和 GPT-4 10 个百分点;此外,他们开发了 LoRAX 多模型推理服务器,支持多个 LoRA fine-tuned 模型在单个 GPU 上运行,以展示使用多个专用 LLM 相对于单个通用 LLM 的质量和成本效益。
Apr, 2024
大语言模型(LLMs)的巨大模型规模在实际部署中引发挑战,因此针对此问题,我们对传统网络修剪技术应用于 LLMs,大量参数可以被剪枝,而不会损害性能。基于从预训练 LLMs 模型中获得的经验,我们的实验结果表明,非均匀层间稀疏性相比于均匀层间稀疏性通常具有更好的效果。为了阐明这种差异的潜在原因,我们开展了对 LLMs 内部特征分布的全面分析。在这个基础上,我们提出了一种新的 LLMs 修剪方法,包含一套特定设计为 LLMs 修剪的非均匀层间稀疏率,称为离群值加权层间稀疏(OWL)。OWL 的稀疏率与每个层中观察到的离群值比例成正比,使得层间权重稀疏性与离群值比例之间能够更加有效地对齐。我们的实证评估结果显示,OWL 相比于先前方法具有显著的优势,例如,在 70% 的高稀疏度下,我们的方法在困惑度上超过了最新的 Wanda 和 SparseGPT 方法,分别提升了 61.22 和 6.80。
Oct, 2023
通过在编程和数学这两个目标领域上比较 Low-Rank Adaptation (LoRA) 和全精调 (full finetuning) 的性能,我们发现在大多数情况下,LoRA 的表现明显逊于全精调;然而,LoRA 展现了一种理想的正则化形式,并且可以更好地保持基础模型在目标领域之外的任务表现,同时比传统技术如权重衰减和 dropout 提供了更强的正则化效果,并有助于生成更多样化的结果。我们还发现全精调学习到的扰动比典型 LoRA 配置的秩高 10-100 倍,这可能解释了一些报告中的差距。最后,我们提出了在使用 LoRA 进行精调时的最佳实践建议。
May, 2024
本研究探讨了一种改进的 LoRA 优化方法,称为 PeriodicLoRA(PLoRA),通过多次积累低秩更新矩阵来提高更新秩,并引入一种基于动量的卸载策略以减轻训练不稳定性。实验结果表明,PLoRA 具有更强的学习能力,最高可达到 LoRA 学习能力的 1.8 倍,但不增加内存使用。
Feb, 2024
OLoRA 是对 LoRA 方法的增强,利用 QR 分解通过正交矩阵初始化来加速 LLM 训练的收敛速度,同时保留 LoRA 的高效特性,例如可训练参数数量和 GPU 内存占用,实证评估结果显示,OLoRA 不仅收敛更快,而且在各种语言建模任务上表现出更好的性能,为 LLM 的精细调整提供了更高效和可访问性的可能,从而促进自然语言应用的广泛采用和创新。
Jun, 2024
本研究通过使用 Parameter-Efficient Fine-Tuning 中的 Low-Rank Adaptation (LoRA) 探索了复杂且未被充分研究的多语言摘要任务的潜力,研究发现 LoRA 在低数据情况和跨语言转移中表现出色,当模型增大时,LoRA 和完全微调之间的性能差距减小,同时,继续训练 LoRA 获得了最佳的少样本跨语言转移表现。
Nov, 2023