平坦的LoRA:在平坦损失景观上的低秩适应
本文提出了一种低秩适应方法(Low-Rank Adaptation,简称LoRA),通过将可训练秩分解矩阵注入变压器结构的每个层中,极大地减少了下游任务中的可训练参数,并且性能与微调相当或更好,同时具有更高的训练吞吐量和没有额外推理延迟,这解决了大规模预训练模型对于微调参数和GPU内存占用过高的问题。
Jun, 2021
在对大规模预训练语言模型进行提升调优的过程中,我们通过引入稀疏低秩适应性的创新方法(SoRA),使得适应过程中能够动态地调整内在秩,从而提高LoRA的表现能力,同时通过更新稀疏方式高效地控制参数数量。实验结果表明,SoRA在保留70%参数和训练时间的情况下,能够胜过其他基准模型。
Nov, 2023
通过修改Low-Rank Adapters方法中的缩放因子,我们提出了一种称为rank-stabilized LoRA (rsLoRA)的方法,可以在训练期间用更多的计算资源来换取更好的fine-tuning性能,并且在推理计算成本不变的情况下实现了fine-tuning计算性能的折中。
Nov, 2023
介绍了一种新的参数高效微调方法LoRA-XS,利用奇异值分解(SVD)在参数高效微调方面取得显著的结果,特别是在较大模型上,比LoRA和VeRA等最新方法更具参数效率同时保持竞争性能。
May, 2024
在这项研究中,我们提出了一种基于贝叶斯角度的矩阵分解和量化方法,名为B-LoRA,通过对学习到的低秩矩阵的量化级别和秩值引入先验分布,使其能够在特定任务上对预训练模型进行精细调节,找到每个低秩矩阵的最佳秩值和量化级别。通过在GLUE基准上对预训练的DeBERTaV3模型进行验证,并将其与相关基准进行比较,我们展示了该方法如何学习到最优秩的量化矩阵,相比基线方法,B-LoRA在性能上与基线相当或更好,并且减少了大约70%的总比特操作量。
Jun, 2024
LoRA Slow Cascade Learning (LoRASC) is an innovative technique that enhances the expressiveness and generalization capabilities of efficient fine-tuning through a cascaded learning strategy and a slow-fast update mechanism, improving model stability, mitigating overfitting, and enhancing OOD robustness.
Jul, 2024
LoRA-GA通过引入一种新的初始化方法,即梯度近似初始化(Low Rank Adaptation with Gradient Approximation),能够在保持效率和性能的同时达到与完全微调相当的收敛速度,进而显著提高模型性能和收敛速度。
Jul, 2024
通过研究矩阵更新的内在维度,揭示了提高内在维度在降低资源消耗、优化性能方面的潜在好处,并通过正则化和梯度屏蔽方法设计了Regularized and Masked LoRA (RM-LoRA)方法,相对于原始的LoRA方法和其最新变体,在各种开源视觉和语言数据集上实现了卓越的泛化性能。
Jul, 2024
该研究解决了低秩适配(LoRA)在与完全微调相比时性能不足的问题。通过引入“等效梯度”的新概念,本文优化了LoRA的优化过程,使其在性能上更接近完全微调。实验结果表明,该方法有效缩小了LoRA与完全微调之间的性能差距。
Jul, 2024
本研究针对低秩适配方法在适应大型预训练模型时参数数量过高的限制,提出了一种新颖的低秩张量参数化方法。这一方法显著降低了可训练参数的数量,并在多项基准测试中展示了在保持性能的同时实现高效微调的潜力。
Oct, 2024