自适应预算分配用于参数高效微调

ICLRMar, 2023

自适应预算分配用于参数高效微调

Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning

Qingru Zhang, Minshuo Chen, Alexander Bukharin, Pengcheng He, Yu Cheng...

TL;DR提出 AdaLoRA 方法，以自适应方式在权重矩阵之间分配参数预算，以优化 NLP 的预先训练模型的参数更新问题，在多个自然语言处理任务中表现出显着优势。

Abstract

fine-tuning large pre-trained language models on downstream tasks has become an important paradigm in nlp. However, common practice fine-t

nlp fine-tuning pre-trained language models adalora parameter budget

发现论文，激发创造

IncreLoRA：增量参数分配方法用于参数高效微调

提出了一种增量参数分配方法 IncreLoRA，通过根据每个模块的重要性得分，在训练期间自适应地添加可训练参数，以应对有限训练条件下参数剪枝的限制，实现更高的参数效率，并在低资源设置下显著优于基准方法。

Aug, 2023

ALoRA: 为大型语言模型调整低秩适应

通过 AB-LoRA 方法，逐步修剪过多和负面影响的 LoRA 排名，并将修剪后的 LoRA 预算分配给需要更高排名的重要 Transformer 模块，实现了分配低秩适应 (ALoRA) 的灵活下游任务适应方法。实验结果表明，ALoRA 方法在可调参数相当的情况下优于最近的基准模型。

Mar, 2024

LoRA-XS：低秩适应与极小参数

介绍了一种新的参数高效微调方法 LoRA-XS，利用奇异值分解（SVD）在参数高效微调方面取得显著的结果，特别是在较大模型上，比 LoRA 和 VeRA 等最新方法更具参数效率同时保持竞争性能。

May, 2024

Delta-LoRA：用低秩矩阵的增量微调高秩参数

本文介绍了 Delta-LoRA，这是一种新颖的参数高效的方法，用于微调大型语言模型（LLMs）。与 LoRA 和其他低秩适应方法相比，Delta-LoRA 不仅更新低秩矩阵 A 和 B，还通过利用两个低秩矩阵的乘积的增量将学习传播到预训练权重 W，从而有效地解决了低秩矩阵的增量更新对于学习适用于下游任务的表示的不足。此外，由于 W 的更新不需要计算 W 的梯度并存储其动量，Delta-LoRA 与 LoRA 具有相当的内存需求和计算成本。大量实验表明，Delta-LoRA 明显优于现有的低秩适应方法。我们通过全面的分析进一步支持了这些结果，强调了 Delta-LoRA 的有效性。

Sep, 2023

LoRA: 大型语言模型的低秩适应

本文提出了一种低秩适应方法（Low-Rank Adaptation，简称 LoRA），通过将可训练秩分解矩阵注入变压器结构的每个层中，极大地减少了下游任务中的可训练参数，并且性能与微调相当或更好，同时具有更高的训练吞吐量和没有额外推理延迟，这解决了大规模预训练模型对于微调参数和 GPU 内存占用过高的问题。

Jun, 2021

DyLoRA: 使用动态无搜索低秩适应进行参数高效微调预训练模型

本文提出了一种名为 Dynamic Low-Rank Adaptation 的技术，旨在通过训练预训练模型的适配器模块，为多个秩数建立动态搜索免费的模型，并证明该方法可以显著加快训练速度并在 GLUE 基准测试中取得一致的优秀表现。

Oct, 2022

PeriodicLoRA: 打破 LoRA 优化中的低秩瓶颈

本研究探讨了一种改进的 LoRA 优化方法，称为 PeriodicLoRA（PLoRA），通过多次积累低秩更新矩阵来提高更新秩，并引入一种基于动量的卸载策略以减轻训练不稳定性。实验结果表明，PLoRA 具有更强的学习能力，最高可达到 LoRA 学习能力的 1.8 倍，但不增加内存使用。

Feb, 2024

PRILoRA：修剪和增大秩的低秩适应

PRILoRA 通过在线性分配不同的秩给每一层并在训练过程中进行剪枝，考虑到权重的临时大小和给定层的输入的累积统计信息，验证了其在八个 GLUE 基准测试中的有效性，取得了最新的技术成果。

Jan, 2024

大规模语言模型指令调优的超参数优化

研究采用黑盒优化技术通过 LoRA 方法调优大型语言模型的超参数选择，以提高性能和人工对齐。

Dec, 2023

贝叶斯 - LoRA：使用最佳量化水平和等级值通过可微分贝叶斯门进行参数高效微调的基于 LoRA 的方法

在这项研究中，我们提出了一种基于贝叶斯角度的矩阵分解和量化方法，名为 B-LoRA，通过对学习到的低秩矩阵的量化级别和秩值引入先验分布，使其能够在特定任务上对预训练模型进行精细调节，找到每个低秩矩阵的最佳秩值和量化级别。通过在 GLUE 基准上对预训练的 DeBERTaV3 模型进行验证，并将其与相关基准进行比较，我们展示了该方法如何学习到最优秩的量化矩阵，相比基线方法，B-LoRA 在性能上与基线相当或更好，并且减少了大约 70% 的总比特操作量。

Jun, 2024