离散傅里叶变换的参数高效微调
本文介绍了 Delta-LoRA,这是一种新颖的参数高效的方法,用于微调大型语言模型(LLMs)。与 LoRA 和其他低秩适应方法相比,Delta-LoRA 不仅更新低秩矩阵 A 和 B,还通过利用两个低秩矩阵的乘积的增量将学习传播到预训练权重 W,从而有效地解决了低秩矩阵的增量更新对于学习适用于下游任务的表示的不足。此外,由于 W 的更新不需要计算 W 的梯度并存储其动量,Delta-LoRA 与 LoRA 具有相当的内存需求和计算成本。大量实验表明,Delta-LoRA 明显优于现有的低秩适应方法。我们通过全面的分析进一步支持了这些结果,强调了 Delta-LoRA 的有效性。
Sep, 2023
在这项研究中,我们提出了一种基于贝叶斯角度的矩阵分解和量化方法,名为 B-LoRA,通过对学习到的低秩矩阵的量化级别和秩值引入先验分布,使其能够在特定任务上对预训练模型进行精细调节,找到每个低秩矩阵的最佳秩值和量化级别。通过在 GLUE 基准上对预训练的 DeBERTaV3 模型进行验证,并将其与相关基准进行比较,我们展示了该方法如何学习到最优秩的量化矩阵,相比基线方法,B-LoRA 在性能上与基线相当或更好,并且减少了大约 70% 的总比特操作量。
Jun, 2024
通过权重分解分析和 LoRA 方法的聚焦更新,DoRA 方法在保持低成本细调的基础上增强了学习能力和训练稳定性,对各种常识推理、视觉指导调整和图像 / 视频 - 文本理解等不同下游任务,超越了 LoRA 方法。
Feb, 2024
LoRA-FA 采用低内存量的权重更新方式,用于大型语言模型的微调,具有接近完整参数微调的准确性,降低了内存使用,技术优化了 LoRA。
Aug, 2023
在隐私保护联邦学习中,本文提出了一种高效且有效的低秩适应方法 FFA-LoRA,通过固定非零矩阵并仅微调零矩阵,缓解了数据异构性、差分隐私增强噪声放大以及超参数敏感性等挑战,同时将通信成本减半,并在各种联邦学习任务中展现了更一致的性能和更好的计算效率。
Mar, 2024
通过引入名为 Fast LoRA(FLoRA)的框架,我们可以有效地对多样化和全球用户群体的实时请求进行批处理,通过将每个输入示例与其独特的低秩适应权重关联起来,实现个性化的任务特定适应,从而缓解了 Low-Rank Adaptation (LoRA) 在处理多个任务特定适配器时的性能瓶颈。我们在包括 8 种语言的 MultiPL-E 代码生成基准和 6 种语言的多语种语音识别任务上,通过实证展示了 FLoRA 保持 LoRA 性能优点的竞争结果。
Dec, 2023
FouRA 是一种新颖的低秩方法,通过学习傅里叶域的投影以及灵活的基于输入的适配器秩选择策略,成功解决了数据复制和分布坍塌问题,并显著提高了生成图像的质量。
Jun, 2024
通过在编程和数学这两个目标领域上比较 Low-Rank Adaptation (LoRA) 和全精调 (full finetuning) 的性能,我们发现在大多数情况下,LoRA 的表现明显逊于全精调;然而,LoRA 展现了一种理想的正则化形式,并且可以更好地保持基础模型在目标领域之外的任务表现,同时比传统技术如权重衰减和 dropout 提供了更强的正则化效果,并有助于生成更多样化的结果。我们还发现全精调学习到的扰动比典型 LoRA 配置的秩高 10-100 倍,这可能解释了一些报告中的差距。最后,我们提出了在使用 LoRA 进行精调时的最佳实践建议。
May, 2024
本研究探讨了一种改进的 LoRA 优化方法,称为 PeriodicLoRA(PLoRA),通过多次积累低秩更新矩阵来提高更新秩,并引入一种基于动量的卸载策略以减轻训练不稳定性。实验结果表明,PLoRA 具有更强的学习能力,最高可达到 LoRA 学习能力的 1.8 倍,但不增加内存使用。
Feb, 2024