LoRA链:通过剩余学习对语言模型进行高效微调
本文提出了一种低秩适应方法(Low-Rank Adaptation,简称LoRA),通过将可训练秩分解矩阵注入变压器结构的每个层中,极大地减少了下游任务中的可训练参数,并且性能与微调相当或更好,同时具有更高的训练吞吐量和没有额外推理延迟,这解决了大规模预训练模型对于微调参数和GPU内存占用过高的问题。
Jun, 2021
LoRA-FA采用低内存量的权重更新方式,用于大型语言模型的微调,具有接近完整参数微调的准确性,降低了内存使用,技术优化了LoRA。
Aug, 2023
本文介绍了Delta-LoRA,这是一种新颖的参数高效的方法,用于微调大型语言模型(LLMs)。与LoRA和其他低秩适应方法相比,Delta-LoRA不仅更新低秩矩阵A和B,还通过利用两个低秩矩阵的乘积的增量将学习传播到预训练权重W,从而有效地解决了低秩矩阵的增量更新对于学习适用于下游任务的表示的不足。此外,由于W的更新不需要计算W的梯度并存储其动量,Delta-LoRA与LoRA具有相当的内存需求和计算成本。大量实验表明,Delta-LoRA明显优于现有的低秩适应方法。我们通过全面的分析进一步支持了这些结果,强调了Delta-LoRA的有效性。
Sep, 2023
在对大规模预训练语言模型进行提升调优的过程中,我们通过引入稀疏低秩适应性的创新方法(SoRA),使得适应过程中能够动态地调整内在秩,从而提高LoRA的表现能力,同时通过更新稀疏方式高效地控制参数数量。实验结果表明,SoRA在保留70%参数和训练时间的情况下,能够胜过其他基准模型。
Nov, 2023
利用大型语言模型的计算和存储需求,我们提出了LoRA-SP(简化的部分参数适应)方法,它利用LoRA框架中的随机半选择性参数冻结来平衡预训练知识的保留和任务特定优化的适应性。通过随机机制,LoRA-SP确定要更新或冻结的参数,显著减少计算和存储需求,同时不损害模型性能。我们在多个基准自然语言处理任务上评估了LoRA-SP,展示了它在与传统的全参数微调和其他参数高效技术相比,以较低的资源消耗实现竞争性性能的能力。LoRA-SP的创新方法不仅有助于在资源有限的环境中部署高级自然语言处理模型,还为有效和高效的模型适应策略开辟了新的研究途径。
Feb, 2024
介绍了一种新的参数高效微调方法LoRA-XS,利用奇异值分解(SVD)在参数高效微调方面取得显著的结果,特别是在较大模型上,比LoRA和VeRA等最新方法更具参数效率同时保持竞争性能。
May, 2024
本研究解决了在复杂下游任务中,单一尺度更新参数可能不是最佳选择的问题。通过扩展低秩适应方法(LoRA)到多尺度,提出了LoRA$^2$,并结合正交投影理论和改进的重要性评分算法,显著减少了训练参数数量,提升了适应性和性能。研究结果表明,LoRA$^2$在微调中仅需0.72%的参数,仍能实现与基线相当的性能,展现了其高效性和潜在影响。
Aug, 2024
本研究解决了在大语言模型微调中低秩适应(LoRA)的计算资源浪费问题。提出的CoRA方法通过使用共享知识优化LoRA训练,显著减少了可训练参数且提高了性能。实验结果表明,该方法在保持效率的同时,提升了与原始LoRA微调相同参数下的效果。
Aug, 2024
本研究针对低秩适配方法在适应大型预训练模型时参数数量过高的限制,提出了一种新颖的低秩张量参数化方法。这一方法显著降低了可训练参数的数量,并在多项基准测试中展示了在保持性能的同时实现高效微调的潜力。
Oct, 2024
本研究针对LoRA在有限数据和训练步骤下的微调局限性,提出了一种新的方法:自适应学习率的ALLoRA。通过消除Dropout和比例因子的影响,ALLoRA显著提高了训练的动态性和收敛性,实验证明在多种设置中其精度优于原有的LoRA及其变体。
Oct, 2024