LISA: 用于节省内存的大型语言模型微调的逐层重要性采样

Mar, 2024

LISA: 用于节省内存的大型语言模型微调的逐层重要性采样

LISA: Layerwise Importance Sampling for Memory-Efficient Large Language Model Fine-Tuning

Rui Pan, Xiang Liu, Shizhe Diao, Renjie Pi, Jipeng Zhang...

TL;DR通过观察 Low-Rank Adaptation 在 fine-tuning 任务中的层内特性，我们发现了一种不同层之间权重归一化的不寻常偏度，利用这一关键观察，我们发现了一种非常简单的训练策略 ——Layerwise Importance Sampled AdamW（LISA），它在减少内存消耗的同时，超越 LoRA 及全参数训练，在大范围设置的下游 fine-tuning 任务中表现出色。

Abstract

The machine learning community has witnessed impressive advancements since the first appearance of large language models (LLMs), yet their huge memory consumption has become a major roadblock to large-scale training. Parameter Efficient Fine-Tuning techniques such as →

large language models low-rank adaptation parameter efficient fine-tuning layerwise importance sampled adamw memory consumption

发现论文，激发创造

OwLore：离群值加权的逐层采样低秩投影，用于内存高效的 LLM 微调

通过优化训练和内存利用，OwLore 方法在大型语言模型中实现了高效的微调和低内存占用。

May, 2024

LoRA-FA: 内存高效的大语言模型低秩适应微调

LoRA-FA 采用低内存量的权重更新方式，用于大型语言模型的微调，具有接近完整参数微调的准确性，降低了内存使用，技术优化了 LoRA。

Aug, 2023

LoRA-SP：资源高效大语言模型微调的简化参数适应

利用大型语言模型的计算和存储需求，我们提出了 LoRA-SP (简化的部分参数适应) 方法，它利用 LoRA 框架中的随机半选择性参数冻结来平衡预训练知识的保留和任务特定优化的适应性。通过随机机制，LoRA-SP 确定要更新或冻结的参数，显著减少计算和存储需求，同时不损害模型性能。我们在多个基准自然语言处理任务上评估了 LoRA-SP，展示了它在与传统的全参数微调和其他参数高效技术相比，以较低的资源消耗实现竞争性性能的能力。LoRA-SP 的创新方法不仅有助于在资源有限的环境中部署高级自然语言处理模型，还为有效和高效的模型适应策略开辟了新的研究途径。

Feb, 2024

LoRA 学习更少，遗忘更少

通过在编程和数学这两个目标领域上比较 Low-Rank Adaptation (LoRA) 和全精调 (full finetuning) 的性能，我们发现在大多数情况下，LoRA 的表现明显逊于全精调；然而，LoRA 展现了一种理想的正则化形式，并且可以更好地保持基础模型在目标领域之外的任务表现，同时比传统技术如权重衰减和 dropout 提供了更强的正则化效果，并有助于生成更多样化的结果。我们还发现全精调学习到的扰动比典型 LoRA 配置的秩高 10-100 倍，这可能解释了一些报告中的差距。最后，我们提出了在使用 LoRA 进行精调时的最佳实践建议。

May, 2024

LoRA: 大型语言模型的低秩适应

本文提出了一种低秩适应方法（Low-Rank Adaptation，简称 LoRA），通过将可训练秩分解矩阵注入变压器结构的每个层中，极大地减少了下游任务中的可训练参数，并且性能与微调相当或更好，同时具有更高的训练吞吐量和没有额外推理延迟，这解决了大规模预训练模型对于微调参数和 GPU 内存占用过高的问题。

Jun, 2021

LoRA Land: 310 微调 LLM 模型媲美 GPT-4 的技术报告

LoRA 是一种使用较少参数和内存的训练方法，研究表明，在低秩适配器的支持下，LoRA fine-tuned 模型在多个任务上表现超过基准模型 34 个百分点和 GPT-4 10 个百分点；此外，他们开发了 LoRAX 多模型推理服务器，支持多个 LoRA fine-tuned 模型在单个 GPU 上运行，以展示使用多个专用 LLM 相对于单个通用 LLM 的质量和成本效益。

Apr, 2024

参数高效的多语言摘要：实证研究

本研究通过使用 Parameter-Efficient Fine-Tuning 中的 Low-Rank Adaptation (LoRA) 探索了复杂且未被充分研究的多语言摘要任务的潜力，研究发现 LoRA 在低数据情况和跨语言转移中表现出色，当模型增大时，LoRA 和完全微调之间的性能差距减小，同时，继续训练 LoRA 获得了最佳的少样本跨语言转移表现。

Nov, 2023

大规模语言模型指令调优的超参数优化

研究采用黑盒优化技术通过 LoRA 方法调优大型语言模型的超参数选择，以提高性能和人工对齐。

Dec, 2023

SuperLoRA: 多层注意力模块参数高效统一适应

提出了一个称为 SuperLoRA 的广义框架，将不同的 LoRA 变体统一并扩展，通过引入分组、折叠、洗牌、投影和张量分解等方法，SuperLoRA 相对于其他 LoRA 变体具有更高的灵活性，在转移学习任务中表现出卓越的性能，尤其在极低参数的情况下表现出色。

Mar, 2024

PeriodicLoRA: 打破 LoRA 优化中的低秩瓶颈

本研究探讨了一种改进的 LoRA 优化方法，称为 PeriodicLoRA（PLoRA），通过多次积累低秩更新矩阵来提高更新秩，并引入一种基于动量的卸载策略以减轻训练不稳定性。实验结果表明，PLoRA 具有更强的学习能力，最高可达到 LoRA 学习能力的 1.8 倍，但不增加内存使用。

Feb, 2024