VB-LoRA:基于向量库的极度参数高效的微调
本文提出了一种低秩适应方法(Low-Rank Adaptation,简称LoRA),通过将可训练秩分解矩阵注入变压器结构的每个层中,极大地减少了下游任务中的可训练参数,并且性能与微调相当或更好,同时具有更高的训练吞吐量和没有额外推理延迟,这解决了大规模预训练模型对于微调参数和GPU内存占用过高的问题。
Jun, 2021
本文介绍了Delta-LoRA,这是一种新颖的参数高效的方法,用于微调大型语言模型(LLMs)。与LoRA和其他低秩适应方法相比,Delta-LoRA不仅更新低秩矩阵A和B,还通过利用两个低秩矩阵的乘积的增量将学习传播到预训练权重W,从而有效地解决了低秩矩阵的增量更新对于学习适用于下游任务的表示的不足。此外,由于W的更新不需要计算W的梯度并存储其动量,Delta-LoRA与LoRA具有相当的内存需求和计算成本。大量实验表明,Delta-LoRA明显优于现有的低秩适应方法。我们通过全面的分析进一步支持了这些结果,强调了Delta-LoRA的有效性。
Sep, 2023
通过修改Low-Rank Adapters方法中的缩放因子,我们提出了一种称为rank-stabilized LoRA (rsLoRA)的方法,可以在训练期间用更多的计算资源来换取更好的fine-tuning性能,并且在推理计算成本不变的情况下实现了fine-tuning计算性能的折中。
Nov, 2023
通过梯度投影方法,我们提出了一种新的迭代优化框架COLA,通过将学习的链式LoRA模块与预训练的语言模型参数进行融合,并为新生成的LoRA模块重新初始化优化过程,从而在无需额外的计算和内存成本的情况下弥合了LoRA和完全参数微调之间的差距。
Jan, 2024
LoRA是一种使用较少参数和内存的训练方法,研究表明,在低秩适配器的支持下,LoRA fine-tuned模型在多个任务上表现超过基准模型34个百分点和GPT-4 10个百分点;此外,他们开发了LoRAX多模型推理服务器,支持多个LoRA fine-tuned模型在单个GPU上运行,以展示使用多个专用LLM相对于单个通用LLM的质量和成本效益。
Apr, 2024
介绍了一种新的参数高效微调方法LoRA-XS,利用奇异值分解(SVD)在参数高效微调方面取得显著的结果,特别是在较大模型上,比LoRA和VeRA等最新方法更具参数效率同时保持竞争性能。
May, 2024
在这项研究中,我们提出了一种基于贝叶斯角度的矩阵分解和量化方法,名为B-LoRA,通过对学习到的低秩矩阵的量化级别和秩值引入先验分布,使其能够在特定任务上对预训练模型进行精细调节,找到每个低秩矩阵的最佳秩值和量化级别。通过在GLUE基准上对预训练的DeBERTaV3模型进行验证,并将其与相关基准进行比较,我们展示了该方法如何学习到最优秩的量化矩阵,相比基线方法,B-LoRA在性能上与基线相当或更好,并且减少了大约70%的总比特操作量。
Jun, 2024
该研究解决了低秩适配(LoRA)在与完全微调相比时性能不足的问题。通过引入“等效梯度”的新概念,本文优化了LoRA的优化过程,使其在性能上更接近完全微调。实验结果表明,该方法有效缩小了LoRA与完全微调之间的性能差距。
Jul, 2024
本研究解决了在复杂下游任务中,单一尺度更新参数可能不是最佳选择的问题。通过扩展低秩适应方法(LoRA)到多尺度,提出了LoRA$^2$,并结合正交投影理论和改进的重要性评分算法,显著减少了训练参数数量,提升了适应性和性能。研究结果表明,LoRA$^2$在微调中仅需0.72%的参数,仍能实现与基线相当的性能,展现了其高效性和潜在影响。
Aug, 2024
本研究针对低秩适配方法在适应大型预训练模型时参数数量过高的限制,提出了一种新颖的低秩张量参数化方法。这一方法显著降低了可训练参数的数量,并在多项基准测试中展示了在保持性能的同时实现高效微调的潜力。
Oct, 2024