单个线性层生成任务适应性低秩矩阵
本文介绍了 Delta-LoRA,这是一种新颖的参数高效的方法,用于微调大型语言模型(LLMs)。与 LoRA 和其他低秩适应方法相比,Delta-LoRA 不仅更新低秩矩阵 A 和 B,还通过利用两个低秩矩阵的乘积的增量将学习传播到预训练权重 W,从而有效地解决了低秩矩阵的增量更新对于学习适用于下游任务的表示的不足。此外,由于 W 的更新不需要计算 W 的梯度并存储其动量,Delta-LoRA 与 LoRA 具有相当的内存需求和计算成本。大量实验表明,Delta-LoRA 明显优于现有的低秩适应方法。我们通过全面的分析进一步支持了这些结果,强调了 Delta-LoRA 的有效性。
Sep, 2023
该论文介绍了一种基于大规模预训练语言模型 (LPLMs) 的微调技术,通过矩阵变换的重新参数化方法 (MTLoRA) 在下游任务中提高模型性能,取得了显著的提升。
Mar, 2024
通过引入名为 Fast LoRA(FLoRA)的框架,我们可以有效地对多样化和全球用户群体的实时请求进行批处理,通过将每个输入示例与其独特的低秩适应权重关联起来,实现个性化的任务特定适应,从而缓解了 Low-Rank Adaptation (LoRA) 在处理多个任务特定适配器时的性能瓶颈。我们在包括 8 种语言的 MultiPL-E 代码生成基准和 6 种语言的多语种语音识别任务上,通过实证展示了 FLoRA 保持 LoRA 性能优点的竞争结果。
Dec, 2023
本研究探讨了一种改进的 LoRA 优化方法,称为 PeriodicLoRA(PLoRA),通过多次积累低秩更新矩阵来提高更新秩,并引入一种基于动量的卸载策略以减轻训练不稳定性。实验结果表明,PLoRA 具有更强的学习能力,最高可达到 LoRA 学习能力的 1.8 倍,但不增加内存使用。
Feb, 2024
通过设置适当的比率为 LoRA 适配器矩阵 A 和 B 设置不同的学习率,我们提出了一种名为 LoRA$+$ 的算法,解决了 LoRA 的次优问题同时提高了性能(1-2%改进)和微调速度(最高约 2 倍速度提升)的问题。
Feb, 2024
为了解决使用低秩更新机制限制了大型语言模型学习和记忆新知识的问题,本文提出了一种名为 MoRA 的新方法,通过引入相应的非参数操作来降低输入维度并增加输出维度,从而实现了高秩更新,同时保持了可训练参数的数量,并在五个任务中对该方法进行了全面评估,结果显示我们的方法在占用内存的任务上表现优于 LoRA,并在其他任务上达到了可比较的性能。
May, 2024
我们提出了一种新颖的 PEFT 方法,名为 RoseLoRA,该方法通过行列稀疏的低秩自适应来识别和更新特定任务中最重要的参数,从而在保持效率的同时保留其他模型的知识。
Jun, 2024
使用低秩适应(LoRA)参数有效的微调方法,通过分析其表达能力和近似误差,证明了 LoRA 方法能够将预训练模型适应到较小目标模型,并适用于全连接神经网络和 Transformer 网络。
Oct, 2023
AutoLoRA 是基于元学习的框架,用于自动识别每个 LoRA 层的最佳秩,通过与选择变量相关联的方法确定最佳秩,并在自然语言理解、生成和序列标记等任务上证明了其有效性。
Mar, 2024
在这项研究中,我们提出了一种基于贝叶斯角度的矩阵分解和量化方法,名为 B-LoRA,通过对学习到的低秩矩阵的量化级别和秩值引入先验分布,使其能够在特定任务上对预训练模型进行精细调节,找到每个低秩矩阵的最佳秩值和量化级别。通过在 GLUE 基准上对预训练的 DeBERTaV3 模型进行验证,并将其与相关基准进行比较,我们展示了该方法如何学习到最优秩的量化矩阵,相比基线方法,B-LoRA 在性能上与基线相当或更好,并且减少了大约 70% 的总比特操作量。
Jun, 2024