LoRA-FA: 内存高效的大语言模型低秩适应微调
通过在编程和数学这两个目标领域上比较 Low-Rank Adaptation (LoRA) 和全精调 (full finetuning) 的性能,我们发现在大多数情况下,LoRA 的表现明显逊于全精调;然而,LoRA 展现了一种理想的正则化形式,并且可以更好地保持基础模型在目标领域之外的任务表现,同时比传统技术如权重衰减和 dropout 提供了更强的正则化效果,并有助于生成更多样化的结果。我们还发现全精调学习到的扰动比典型 LoRA 配置的秩高 10-100 倍,这可能解释了一些报告中的差距。最后,我们提出了在使用 LoRA 进行精调时的最佳实践建议。
May, 2024
通过设置适当的比率为 LoRA 适配器矩阵 A 和 B 设置不同的学习率,我们提出了一种名为 LoRA$+$ 的算法,解决了 LoRA 的次优问题同时提高了性能(1-2%改进)和微调速度(最高约 2 倍速度提升)的问题。
Feb, 2024
通过 AB-LoRA 方法,逐步修剪过多和负面影响的 LoRA 排名,并将修剪后的 LoRA 预算分配给需要更高排名的重要 Transformer 模块,实现了分配低秩适应 (ALoRA) 的灵活下游任务适应方法。实验结果表明,ALoRA 方法在可调参数相当的情况下优于最近的基准模型。
Mar, 2024
本文提出了一种低秩适应方法(Low-Rank Adaptation,简称 LoRA),通过将可训练秩分解矩阵注入变压器结构的每个层中,极大地减少了下游任务中的可训练参数,并且性能与微调相当或更好,同时具有更高的训练吞吐量和没有额外推理延迟,这解决了大规模预训练模型对于微调参数和 GPU 内存占用过高的问题。
Jun, 2021
在隐私保护联邦学习中,本文提出了一种高效且有效的低秩适应方法 FFA-LoRA,通过固定非零矩阵并仅微调零矩阵,缓解了数据异构性、差分隐私增强噪声放大以及超参数敏感性等挑战,同时将通信成本减半,并在各种联邦学习任务中展现了更一致的性能和更好的计算效率。
Mar, 2024
通过引入名为 Fast LoRA(FLoRA)的框架,我们可以有效地对多样化和全球用户群体的实时请求进行批处理,通过将每个输入示例与其独特的低秩适应权重关联起来,实现个性化的任务特定适应,从而缓解了 Low-Rank Adaptation (LoRA) 在处理多个任务特定适配器时的性能瓶颈。我们在包括 8 种语言的 MultiPL-E 代码生成基准和 6 种语言的多语种语音识别任务上,通过实证展示了 FLoRA 保持 LoRA 性能优点的竞争结果。
Dec, 2023
使用低秩适应(LoRA)参数有效的微调方法,通过分析其表达能力和近似误差,证明了 LoRA 方法能够将预训练模型适应到较小目标模型,并适用于全连接神经网络和 Transformer 网络。
Oct, 2023
为了解决使用低秩更新机制限制了大型语言模型学习和记忆新知识的问题,本文提出了一种名为 MoRA 的新方法,通过引入相应的非参数操作来降低输入维度并增加输出维度,从而实现了高秩更新,同时保持了可训练参数的数量,并在五个任务中对该方法进行了全面评估,结果显示我们的方法在占用内存的任务上表现优于 LoRA,并在其他任务上达到了可比较的性能。
May, 2024
本研究探讨了一种改进的 LoRA 优化方法,称为 PeriodicLoRA(PLoRA),通过多次积累低秩更新矩阵来提高更新秩,并引入一种基于动量的卸载策略以减轻训练不稳定性。实验结果表明,PLoRA 具有更强的学习能力,最高可达到 LoRA 学习能力的 1.8 倍,但不增加内存使用。
Feb, 2024
通过梯度投影方法,我们提出了一种新的迭代优化框架 COLA,通过将学习的链式 LoRA 模块与预训练的语言模型参数进行融合,并为新生成的 LoRA 模块重新初始化优化过程,从而在无需额外的计算和内存成本的情况下弥合了 LoRA 和完全参数微调之间的差距。
Jan, 2024