偏见意识低秩适应:缓解大型语言模型的灾难性继承
本文提出了一种低秩适应方法(Low-Rank Adaptation,简称LoRA),通过将可训练秩分解矩阵注入变压器结构的每个层中,极大地减少了下游任务中的可训练参数,并且性能与微调相当或更好,同时具有更高的训练吞吐量和没有额外推理延迟,这解决了大规模预训练模型对于微调参数和GPU内存占用过高的问题。
Jun, 2021
本文主要介绍了大型语言模型的fine-tuning方法——parameter-efficient fine-tuning(PEFT),并通过对FLAN-T5模型的综合测试和分析,提出了选择fine-tuning技术的最佳方法,重点考虑任务类型和数据可用性,同时指出了PEFT方法在数据过少的情况下的收敛速度慢的问题,提出了更好的model optimization方法。
Apr, 2023
本文介绍了Delta-LoRA,这是一种新颖的参数高效的方法,用于微调大型语言模型(LLMs)。与LoRA和其他低秩适应方法相比,Delta-LoRA不仅更新低秩矩阵A和B,还通过利用两个低秩矩阵的乘积的增量将学习传播到预训练权重W,从而有效地解决了低秩矩阵的增量更新对于学习适用于下游任务的表示的不足。此外,由于W的更新不需要计算W的梯度并存储其动量,Delta-LoRA与LoRA具有相当的内存需求和计算成本。大量实验表明,Delta-LoRA明显优于现有的低秩适应方法。我们通过全面的分析进一步支持了这些结果,强调了Delta-LoRA的有效性。
Sep, 2023
在对大规模预训练语言模型进行提升调优的过程中,我们通过引入稀疏低秩适应性的创新方法(SoRA),使得适应过程中能够动态地调整内在秩,从而提高LoRA的表现能力,同时通过更新稀疏方式高效地控制参数数量。实验结果表明,SoRA在保留70%参数和训练时间的情况下,能够胜过其他基准模型。
Nov, 2023
通过梯度投影方法,我们提出了一种新的迭代优化框架COLA,通过将学习的链式LoRA模块与预训练的语言模型参数进行融合,并为新生成的LoRA模块重新初始化优化过程,从而在无需额外的计算和内存成本的情况下弥合了LoRA和完全参数微调之间的差距。
Jan, 2024
MELoRA是一种采用较少可训练参数但保持较高秩的迷你低秩适配器,用于针对预训练大型语言模型进行性能优化的方法。实验证明,在自然语言理解和指令跟随任务上,相较于低秩适配器LoRA,MELoRA在拥有8倍较少可训练参数时表现更好,而在指令跟随任务上拥有36倍较少可训练参数时也表现更好,证明了MELoRA的有效性。
Feb, 2024
利用大型语言模型的计算和存储需求,我们提出了LoRA-SP(简化的部分参数适应)方法,它利用LoRA框架中的随机半选择性参数冻结来平衡预训练知识的保留和任务特定优化的适应性。通过随机机制,LoRA-SP确定要更新或冻结的参数,显著减少计算和存储需求,同时不损害模型性能。我们在多个基准自然语言处理任务上评估了LoRA-SP,展示了它在与传统的全参数微调和其他参数高效技术相比,以较低的资源消耗实现竞争性性能的能力。LoRA-SP的创新方法不仅有助于在资源有限的环境中部署高级自然语言处理模型,还为有效和高效的模型适应策略开辟了新的研究途径。
Feb, 2024
通过 AB-LoRA 方法,逐步修剪过多和负面影响的 LoRA 排名,并将修剪后的 LoRA 预算分配给需要更高排名的重要 Transformer 模块,实现了分配低秩适应 (ALoRA) 的灵活下游任务适应方法。实验结果表明,ALoRA 方法在可调参数相当的情况下优于最近的基准模型。
Mar, 2024