通过循环卷积实现参数高效的微调
本文介绍了Delta-LoRA,这是一种新颖的参数高效的方法,用于微调大型语言模型(LLMs)。与LoRA和其他低秩适应方法相比,Delta-LoRA不仅更新低秩矩阵A和B,还通过利用两个低秩矩阵的乘积的增量将学习传播到预训练权重W,从而有效地解决了低秩矩阵的增量更新对于学习适用于下游任务的表示的不足。此外,由于W的更新不需要计算W的梯度并存储其动量,Delta-LoRA与LoRA具有相当的内存需求和计算成本。大量实验表明,Delta-LoRA明显优于现有的低秩适应方法。我们通过全面的分析进一步支持了这些结果,强调了Delta-LoRA的有效性。
Sep, 2023
使用低秩适应(LoRA)参数有效的微调方法,通过分析其表达能力和近似误差,证明了LoRA方法能够将预训练模型适应到较小目标模型,并适用于全连接神经网络和Transformer网络。
Oct, 2023
通过修改Low-Rank Adapters方法中的缩放因子,我们提出了一种称为rank-stabilized LoRA (rsLoRA)的方法,可以在训练期间用更多的计算资源来换取更好的fine-tuning性能,并且在推理计算成本不变的情况下实现了fine-tuning计算性能的折中。
Nov, 2023
通过在编程和数学这两个目标领域上比较 Low-Rank Adaptation (LoRA) 和全精调 (full finetuning) 的性能,我们发现在大多数情况下,LoRA的表现明显逊于全精调;然而,LoRA展现了一种理想的正则化形式,并且可以更好地保持基础模型在目标领域之外的任务表现,同时比传统技术如权重衰减和dropout提供了更强的正则化效果,并有助于生成更多样化的结果。我们还发现全精调学习到的扰动比典型LoRA配置的秩高10-100倍,这可能解释了一些报告中的差距。最后,我们提出了在使用LoRA进行精调时的最佳实践建议。
May, 2024
本研究介绍了动态低秩适应(DoRA)方法,该方法在训练过程中将高秩的低秩层分解为结构化的单秩元件,允许根据任务重要性动态修剪参数预算,以充分利用有限的参数预算,并且实验证明 DoRA 方法在与 LoRA 和完全模型微调相比具有竞争性的性能和优于各种强基线模型的结果。
May, 2024
LoRA-GA通过引入一种新的初始化方法,即梯度近似初始化(Low Rank Adaptation with Gradient Approximation),能够在保持效率和性能的同时达到与完全微调相当的收敛速度,进而显著提高模型性能和收敛速度。
Jul, 2024
该研究解决了低秩适配(LoRA)在与完全微调相比时性能不足的问题。通过引入“等效梯度”的新概念,本文优化了LoRA的优化过程,使其在性能上更接近完全微调。实验结果表明,该方法有效缩小了LoRA与完全微调之间的性能差距。
Jul, 2024