LoRA 丢弃法作为过拟合控制的稀疏正则化器

Apr, 2024

LoRA 丢弃法作为过拟合控制的稀疏正则化器

LoRA Dropout as a Sparsity Regularizer for Overfitting Control

Yang Lin, Xinyu Ma, Xu Chu, Yujie Jin, Zhibang Yang...

TL;DR本文提出了一种 LoRA Dropout 机制，通过向可学习的低秩矩阵引入随机噪声和增加参数稀疏性，从稀疏正则化的角度证明了 LoRA Dropout 机制的理论机制，并提供了在该框架下的泛化误差界限。理论结果表明适当的稀疏性可以帮助缩小经验风险和泛化风险之间的差距，从而控制过拟合。此外，基于 LoRA Dropout 框架，引入了测试时集成策略，并提供了理论证据证明集成方法可以进一步压缩误差界限，在推理时获得更好的性能。在各种自然语言处理任务上进行的广泛实验验证了我们的 LoRA Dropout 框架在提高模型准确性和校准性方面的实际有效性。

Abstract

Parameter-efficient fine-tuning methods, represented by lora, play an essential role in adapting large-scale pre-trained models to downstream tasks. However, fine-tuning →

fine-tuning methods lora overfitting parameter sparsity generalization error bound

发现论文，激发创造

LoRA 遇见 Dropout: 一个统一框架下的研究

基于对参数高效 LoRA 的研究，我们重新审视了特定于 Transformer 的 Dropout 方法的数学和经验上的等价性和区别，并基于此提出了一个统一的框架，揭示了当涉及到有限可训练参数时它们的新偏好和性能比较。这个框架还允许我们将最有利的方面融合成一个名为 HiddenKey 的新的 Dropout 方法，广泛的实验证实 HiddenKey 在多个模型和任务上具有显著的优势和足够性，将其作为大语言模型高性能和参数高效微调的首选方法。

Feb, 2024

PeriodicLoRA: 打破 LoRA 优化中的低秩瓶颈

本研究探讨了一种改进的 LoRA 优化方法，称为 PeriodicLoRA（PLoRA），通过多次积累低秩更新矩阵来提高更新秩，并引入一种基于动量的卸载策略以减轻训练不稳定性。实验结果表明，PLoRA 具有更强的学习能力，最高可达到 LoRA 学习能力的 1.8 倍，但不增加内存使用。

Feb, 2024

基于输出评估的高效 LoRA 参数剪枝技术

通过分析 LoRA 的输出来评估参数的重要性，我们提出了 LoRA-drop 方法，对于重要层保留原有参数，而对其他层则共享同一组参数。大量的 NLU 和 NLG 任务实验证明了 LoRA-drop 的有效性。

Feb, 2024

LoRA 学习更少，遗忘更少

通过在编程和数学这两个目标领域上比较 Low-Rank Adaptation (LoRA) 和全精调 (full finetuning) 的性能，我们发现在大多数情况下，LoRA 的表现明显逊于全精调；然而，LoRA 展现了一种理想的正则化形式，并且可以更好地保持基础模型在目标领域之外的任务表现，同时比传统技术如权重衰减和 dropout 提供了更强的正则化效果，并有助于生成更多样化的结果。我们还发现全精调学习到的扰动比典型 LoRA 配置的秩高 10-100 倍，这可能解释了一些报告中的差距。最后，我们提出了在使用 LoRA 进行精调时的最佳实践建议。

May, 2024

IncreLoRA：增量参数分配方法用于参数高效微调

提出了一种增量参数分配方法 IncreLoRA，通过根据每个模块的重要性得分，在训练期间自适应地添加可训练参数，以应对有限训练条件下参数剪枝的限制，实现更高的参数效率，并在低资源设置下显著优于基准方法。

Aug, 2023

隐私保护联邦学习中 LoRA 的改进

在隐私保护联邦学习中，本文提出了一种高效且有效的低秩适应方法 FFA-LoRA，通过固定非零矩阵并仅微调零矩阵，缓解了数据异构性、差分隐私增强噪声放大以及超参数敏感性等挑战，同时将通信成本减半，并在各种联邦学习任务中展现了更一致的性能和更好的计算效率。

Mar, 2024

DoRA: 通过动态排名分布增强参数效率微调

本研究介绍了动态低秩适应（DoRA）方法，该方法在训练过程中将高秩的低秩层分解为结构化的单秩元件，允许根据任务重要性动态修剪参数预算，以充分利用有限的参数预算，并且实验证明 DoRA 方法在与 LoRA 和完全模型微调相比具有竞争性的性能和优于各种强基线模型的结果。

May, 2024

RoseLoRA: 面向知识编辑和微调的稀疏低秩预训练语言模型的行列稀疏低秩适应

我们提出了一种新颖的 PEFT 方法，名为 RoseLoRA，该方法通过行列稀疏的低秩自适应来识别和更新特定任务中最重要的参数，从而在保持效率的同时保留其他模型的知识。

Jun, 2024

贝叶斯 - LoRA：使用最佳量化水平和等级值通过可微分贝叶斯门进行参数高效微调的基于 LoRA 的方法

在这项研究中，我们提出了一种基于贝叶斯角度的矩阵分解和量化方法，名为 B-LoRA，通过对学习到的低秩矩阵的量化级别和秩值引入先验分布，使其能够在特定任务上对预训练模型进行精细调节，找到每个低秩矩阵的最佳秩值和量化级别。通过在 GLUE 基准上对预训练的 DeBERTaV3 模型进行验证，并将其与相关基准进行比较，我们展示了该方法如何学习到最优秩的量化矩阵，相比基线方法，B-LoRA 在性能上与基线相当或更好，并且减少了大约 70% 的总比特操作量。

Jun, 2024

PRILoRA：修剪和增大秩的低秩适应

PRILoRA 通过在线性分配不同的秩给每一层并在训练过程中进行剪枝，考虑到权重的临时大小和给定层的输入的累积统计信息，验证了其在八个 GLUE 基准测试中的有效性，取得了最新的技术成果。

Jan, 2024