ALLoRA:自适应学习率缓解LoRA致命缺陷
本文提出了一种低秩适应方法(Low-Rank Adaptation,简称LoRA),通过将可训练秩分解矩阵注入变压器结构的每个层中,极大地减少了下游任务中的可训练参数,并且性能与微调相当或更好,同时具有更高的训练吞吐量和没有额外推理延迟,这解决了大规模预训练模型对于微调参数和GPU内存占用过高的问题。
Jun, 2021
LoRA-FA采用低内存量的权重更新方式,用于大型语言模型的微调,具有接近完整参数微调的准确性,降低了内存使用,技术优化了LoRA。
Aug, 2023
本文介绍了Delta-LoRA,这是一种新颖的参数高效的方法,用于微调大型语言模型(LLMs)。与LoRA和其他低秩适应方法相比,Delta-LoRA不仅更新低秩矩阵A和B,还通过利用两个低秩矩阵的乘积的增量将学习传播到预训练权重W,从而有效地解决了低秩矩阵的增量更新对于学习适用于下游任务的表示的不足。此外,由于W的更新不需要计算W的梯度并存储其动量,Delta-LoRA与LoRA具有相当的内存需求和计算成本。大量实验表明,Delta-LoRA明显优于现有的低秩适应方法。我们通过全面的分析进一步支持了这些结果,强调了Delta-LoRA的有效性。
Sep, 2023
在对大规模预训练语言模型进行提升调优的过程中,我们通过引入稀疏低秩适应性的创新方法(SoRA),使得适应过程中能够动态地调整内在秩,从而提高LoRA的表现能力,同时通过更新稀疏方式高效地控制参数数量。实验结果表明,SoRA在保留70%参数和训练时间的情况下,能够胜过其他基准模型。
Nov, 2023
通过梯度投影方法,我们提出了一种新的迭代优化框架COLA,通过将学习的链式LoRA模块与预训练的语言模型参数进行融合,并为新生成的LoRA模块重新初始化优化过程,从而在无需额外的计算和内存成本的情况下弥合了LoRA和完全参数微调之间的差距。
Jan, 2024
LoRA是一种高效适应大型语言模型(LLM)的首选方法,具有显著的简洁性和有效性,本文提供了对原始LoRA论文的补充视角,并为大规模部署LoRA提供了一系列的见解,以改善对LoRA的理解和应用。
Apr, 2024
通过在编程和数学这两个目标领域上比较 Low-Rank Adaptation (LoRA) 和全精调 (full finetuning) 的性能,我们发现在大多数情况下,LoRA的表现明显逊于全精调;然而,LoRA展现了一种理想的正则化形式,并且可以更好地保持基础模型在目标领域之外的任务表现,同时比传统技术如权重衰减和dropout提供了更强的正则化效果,并有助于生成更多样化的结果。我们还发现全精调学习到的扰动比典型LoRA配置的秩高10-100倍,这可能解释了一些报告中的差距。最后,我们提出了在使用LoRA进行精调时的最佳实践建议。
May, 2024
本研究解决了在复杂下游任务中,单一尺度更新参数可能不是最佳选择的问题。通过扩展低秩适应方法(LoRA)到多尺度,提出了LoRA$^2$,并结合正交投影理论和改进的重要性评分算法,显著减少了训练参数数量,提升了适应性和性能。研究结果表明,LoRA$^2$在微调中仅需0.72%的参数,仍能实现与基线相当的性能,展现了其高效性和潜在影响。
Aug, 2024
本研究解决了在大语言模型微调中低秩适应(LoRA)的计算资源浪费问题。提出的CoRA方法通过使用共享知识优化LoRA训练,显著减少了可训练参数且提高了性能。实验结果表明,该方法在保持效率的同时,提升了与原始LoRA微调相同参数下的效果。
Aug, 2024
本研究针对大语言模型(LLMs)在特定任务微调中面临的高计算和存储成本问题,提出了一种新的LoRA-Mini方法。该方法通过将低秩矩阵分为四个部分,仅训练其中两个内矩阵,从而实现参数效率提升,训练参数数量最多减少至标准LoRA的20倍,同时保持了与标准LoRA相当的性能,显著改善了LLMs微调的计算和存储效率。
Nov, 2024