Sep, 2023

Delta-LoRA:用低秩矩阵的增量微调高秩参数

TL;DR本文介绍了Delta-LoRA,这是一种新颖的参数高效的方法,用于微调大型语言模型(LLMs)。与LoRA和其他低秩适应方法相比,Delta-LoRA不仅更新低秩矩阵A和B,还通过利用两个低秩矩阵的乘积的增量将学习传播到预训练权重W,从而有效地解决了低秩矩阵的增量更新对于学习适用于下游任务的表示的不足。此外,由于W的更新不需要计算W的梯度并存储其动量,Delta-LoRA与LoRA具有相当的内存需求和计算成本。大量实验表明,Delta-LoRA明显优于现有的低秩适应方法。我们通过全面的分析进一步支持了这些结果,强调了Delta-LoRA的有效性。