初始化对 LoRA 微调动态的影响

Jun, 2024

The Impact of Initialization on LoRA Finetuning Dynamics

Soufiane Hayou, Nikhil Ghosh, Bin Yu

TL;DR该篇论文研究了初始化在低秩适应（LoRA）中的作用，结果显示将 B 初始化为零且将 A 初始化为随机可以比其他方案获得更好的性能。

Abstract

In this paper, we study the role of initialization in low rank adaptation (LoRA) as originally introduced in Hu et al. (2021). Essentially, to start from the →

low rank adaptation initialization finetuning pretrained model learning rates

发现论文，激发创造

基础模型中低秩适配器的非对称性

参数高效微调机制及其在神经网络中的隆升模块对称性研究及分析。

Feb, 2024

LoRA+：大型模型的高效低秩自适应

通过设置适当的比率为 LoRA 适配器矩阵 A 和 B 设置不同的学习率，我们提出了一种名为 LoRA$+$ 的算法，解决了 LoRA 的次优问题同时提高了性能（1-2％改进）和微调速度（最高约 2 倍速度提升）的问题。

Feb, 2024

ALoRA: 为大型语言模型调整低秩适应

通过 AB-LoRA 方法，逐步修剪过多和负面影响的 LoRA 排名，并将修剪后的 LoRA 预算分配给需要更高排名的重要 Transformer 模块，实现了分配低秩适应 (ALoRA) 的灵活下游任务适应方法。实验结果表明，ALoRA 方法在可调参数相当的情况下优于最近的基准模型。

Mar, 2024

对抗迁移学习中的初始化问题

在这项研究中，我们深入研究了迁移学习中的对抗鲁棒性，并揭示了初始化的关键作用，包括预训练模型和线性头部。我们发现对抗鲁棒的预训练模型的必要性，并通过线性探测发现它能在某些数据集上优于全面微调和其他方法。基于此，我们提出了 Robust Linear Initialization（RoLI）来对抗微调，通过使用对抗线性探测获得的权重来最大程度地继承预训练的鲁棒性，并在五个不同的图像分类数据集上取得了新的最优结果。

Dec, 2023

LoRA-FA: 内存高效的大语言模型低秩适应微调

LoRA-FA 采用低内存量的权重更新方式，用于大型语言模型的微调，具有接近完整参数微调的准确性，降低了内存使用，技术优化了 LoRA。

Aug, 2023

PRILoRA：修剪和增大秩的低秩适应

PRILoRA 通过在线性分配不同的秩给每一层并在训练过程中进行剪枝，考虑到权重的临时大小和给定层的输入的累积统计信息，验证了其在八个 GLUE 基准测试中的有效性，取得了最新的技术成果。

Jan, 2024

LoRA 学习更少，遗忘更少

通过在编程和数学这两个目标领域上比较 Low-Rank Adaptation (LoRA) 和全精调 (full finetuning) 的性能，我们发现在大多数情况下，LoRA 的表现明显逊于全精调；然而，LoRA 展现了一种理想的正则化形式，并且可以更好地保持基础模型在目标领域之外的任务表现，同时比传统技术如权重衰减和 dropout 提供了更强的正则化效果，并有助于生成更多样化的结果。我们还发现全精调学习到的扰动比典型 LoRA 配置的秩高 10-100 倍，这可能解释了一些报告中的差距。最后，我们提出了在使用 LoRA 进行精调时的最佳实践建议。

May, 2024

PeriodicLoRA: 打破 LoRA 优化中的低秩瓶颈

本研究探讨了一种改进的 LoRA 优化方法，称为 PeriodicLoRA（PLoRA），通过多次积累低秩更新矩阵来提高更新秩，并引入一种基于动量的卸载策略以减轻训练不稳定性。实验结果表明，PLoRA 具有更强的学习能力，最高可达到 LoRA 学习能力的 1.8 倍，但不增加内存使用。

Feb, 2024

IncreLoRA：增量参数分配方法用于参数高效微调

提出了一种增量参数分配方法 IncreLoRA，通过根据每个模块的重要性得分，在训练期间自适应地添加可训练参数，以应对有限训练条件下参数剪枝的限制，实现更高的参数效率，并在低资源设置下显著优于基准方法。

Aug, 2023

贝叶斯 - LoRA：使用最佳量化水平和等级值通过可微分贝叶斯门进行参数高效微调的基于 LoRA 的方法

在这项研究中，我们提出了一种基于贝叶斯角度的矩阵分解和量化方法，名为 B-LoRA，通过对学习到的低秩矩阵的量化级别和秩值引入先验分布，使其能够在特定任务上对预训练模型进行精细调节，找到每个低秩矩阵的最佳秩值和量化级别。通过在 GLUE 基准上对预训练的 DeBERTaV3 模型进行验证，并将其与相关基准进行比较，我们展示了该方法如何学习到最优秩的量化矩阵，相比基线方法，B-LoRA 在性能上与基线相当或更好，并且减少了大约 70% 的总比特操作量。

Jun, 2024