OwLore：离群值加权的逐层采样低秩投影，用于内存高效的 LLM 微调

May, 2024

OwLore：离群值加权的逐层采样低秩投影，用于内存高效的 LLM 微调

OwLore: Outlier-weighed Layerwise Sampled Low-Rank Projection for Memory-Efficient LLM Fine-tuning

Pengxiang Li, Lu Yin, Xiaowei Gao, Shiwei Liu

TL;DR通过优化训练和内存利用，OwLore 方法在大型语言模型中实现了高效的微调和低内存占用。

Abstract

The rapid advancements in large language models (LLMs) have revolutionized various natural language processing tasks. However, the substantial size of LLMs presents significant challenges in training or fine-tuning

large language models fine-tuning efficient training memory-performance trade-off owlore

发现论文，激发创造

GaLore: 通过梯度低秩投影实现的内存高效 LLM 训练

通过提出 Gradient Low-Rank Projection (GaLore) 的训练策略，本研究在大规模语言模型的预训练过程中实现全参数学习，并以更高的内存效率减少了高达 65.5% 的优化器状态内存使用，同时在多项任务上保持了效率和性能，展示出在具有 24GB 内存的消费级 GPU 上（例如 NVIDIA RTX 4090）进行 7B 模型的预训练的可行性。

Mar, 2024

LISA: 用于节省内存的大型语言模型微调的逐层重要性采样

通过观察 Low-Rank Adaptation 在 fine-tuning 任务中的层内特性，我们发现了一种不同层之间权重归一化的不寻常偏度，利用这一关键观察，我们发现了一种非常简单的训练策略 ——Layerwise Importance Sampled AdamW（LISA），它在减少内存消耗的同时，超越 LoRA 及全参数训练，在大范围设置的下游 fine-tuning 任务中表现出色。

Mar, 2024

LoRA Land: 310 微调 LLM 模型媲美 GPT-4 的技术报告

LoRA 是一种使用较少参数和内存的训练方法，研究表明，在低秩适配器的支持下，LoRA fine-tuned 模型在多个任务上表现超过基准模型 34 个百分点和 GPT-4 10 个百分点；此外，他们开发了 LoRAX 多模型推理服务器，支持多个 LoRA fine-tuned 模型在单个 GPU 上运行，以展示使用多个专用 LLM 相对于单个通用 LLM 的质量和成本效益。

Apr, 2024

异常值加权逐层稀疏化（OWL）：向高稀疏化去除 LLMs 的遗漏秘密配方

大语言模型（LLMs）的巨大模型规模在实际部署中引发挑战，因此针对此问题，我们对传统网络修剪技术应用于 LLMs，大量参数可以被剪枝，而不会损害性能。基于从预训练 LLMs 模型中获得的经验，我们的实验结果表明，非均匀层间稀疏性相比于均匀层间稀疏性通常具有更好的效果。为了阐明这种差异的潜在原因，我们开展了对 LLMs 内部特征分布的全面分析。在这个基础上，我们提出了一种新的 LLMs 修剪方法，包含一套特定设计为 LLMs 修剪的非均匀层间稀疏率，称为离群值加权层间稀疏（OWL）。OWL 的稀疏率与每个层中观察到的离群值比例成正比，使得层间权重稀疏性与离群值比例之间能够更加有效地对齐。我们的实证评估结果显示，OWL 相比于先前方法具有显著的优势，例如，在 70% 的高稀疏度下，我们的方法在困惑度上超过了最新的 Wanda 和 SparseGPT 方法，分别提升了 61.22 和 6.80。

Oct, 2023

大规模语言模型指令调优的超参数优化

研究采用黑盒优化技术通过 LoRA 方法调优大型语言模型的超参数选择，以提高性能和人工对齐。

Dec, 2023

LoRA 学习更少，遗忘更少

通过在编程和数学这两个目标领域上比较 Low-Rank Adaptation (LoRA) 和全精调 (full finetuning) 的性能，我们发现在大多数情况下，LoRA 的表现明显逊于全精调；然而，LoRA 展现了一种理想的正则化形式，并且可以更好地保持基础模型在目标领域之外的任务表现，同时比传统技术如权重衰减和 dropout 提供了更强的正则化效果，并有助于生成更多样化的结果。我们还发现全精调学习到的扰动比典型 LoRA 配置的秩高 10-100 倍，这可能解释了一些报告中的差距。最后，我们提出了在使用 LoRA 进行精调时的最佳实践建议。

May, 2024

PeriodicLoRA: 打破 LoRA 优化中的低秩瓶颈

本研究探讨了一种改进的 LoRA 优化方法，称为 PeriodicLoRA（PLoRA），通过多次积累低秩更新矩阵来提高更新秩，并引入一种基于动量的卸载策略以减轻训练不稳定性。实验结果表明，PLoRA 具有更强的学习能力，最高可达到 LoRA 学习能力的 1.8 倍，但不增加内存使用。

Feb, 2024

OLoRA: 正交低秩对大型语言模型的适应

OLoRA 是对 LoRA 方法的增强，利用 QR 分解通过正交矩阵初始化来加速 LLM 训练的收敛速度，同时保留 LoRA 的高效特性，例如可训练参数数量和 GPU 内存占用，实证评估结果显示，OLoRA 不仅收敛更快，而且在各种语言建模任务上表现出更好的性能，为 LLM 的精细调整提供了更高效和可访问性的可能，从而促进自然语言应用的广泛采用和创新。

Jun, 2024

大语言模型微调的 LoRA 组合

使用 Low-Rank Adapters (LoRA) 的集成方法能显著改善针对预训练语言模型（LLMs）的不确定性量化问题，提高预测准确性。

Sep, 2023

参数高效的多语言摘要：实证研究

本研究通过使用 Parameter-Efficient Fine-Tuning 中的 Low-Rank Adaptation (LoRA) 探索了复杂且未被充分研究的多语言摘要任务的潜力，研究发现 LoRA 在低数据情况和跨语言转移中表现出色，当模型增大时，LoRA 和完全微调之间的性能差距减小，同时，继续训练 LoRA 获得了最佳的少样本跨语言转移表现。

Nov, 2023