低秩适应的连续学习
通过注入少量参数重参数化预训练权重,InfLoRA 方法设计了一个子空间来消除新任务对旧任务的干扰,实现了稳定性和可塑性之间的良好权衡,从而在多个数据集上胜过现有最先进的持续学习方法。
Mar, 2024
通过在编程和数学这两个目标领域上比较 Low-Rank Adaptation (LoRA) 和全精调 (full finetuning) 的性能,我们发现在大多数情况下,LoRA 的表现明显逊于全精调;然而,LoRA 展现了一种理想的正则化形式,并且可以更好地保持基础模型在目标领域之外的任务表现,同时比传统技术如权重衰减和 dropout 提供了更强的正则化效果,并有助于生成更多样化的结果。我们还发现全精调学习到的扰动比典型 LoRA 配置的秩高 10-100 倍,这可能解释了一些报告中的差距。最后,我们提出了在使用 LoRA 进行精调时的最佳实践建议。
May, 2024
本文提出了一种低秩适应方法(Low-Rank Adaptation,简称 LoRA),通过将可训练秩分解矩阵注入变压器结构的每个层中,极大地减少了下游任务中的可训练参数,并且性能与微调相当或更好,同时具有更高的训练吞吐量和没有额外推理延迟,这解决了大规模预训练模型对于微调参数和 GPU 内存占用过高的问题。
Jun, 2021
我们提出了一种新颖的方法,利用低秩适应和任务算术,不断训练基于 Transformer 的视觉模型,绕过灾难性遗忘问题并减少训练计算需求。在每个类别仅使用 10 个样本的小内存的帮助下,我们的方法实现了接近于完整微调的性能,并通过严格的消融实验证明了我们方法的优势。
Nov, 2023
深度学习模型的可扩展性受到计算资源、内存和通讯的根本限制。本文在模型预训练中探索了低秩适应(LoRA)方法的应用,介绍了 LoRA-the-Explorer(LTE)算法,通过在计算节点上进行多个低秩头的并行训练来减少同步频率,使用不同视觉数据集进行广泛实验,并证明 LTE 在标准预训练中具有竞争力。
Feb, 2024
通过 AB-LoRA 方法,逐步修剪过多和负面影响的 LoRA 排名,并将修剪后的 LoRA 预算分配给需要更高排名的重要 Transformer 模块,实现了分配低秩适应 (ALoRA) 的灵活下游任务适应方法。实验结果表明,ALoRA 方法在可调参数相当的情况下优于最近的基准模型。
Mar, 2024
本文研究了使用低秩适应(LoRA)将预训练模型与现有权重进行合并的设置,并探讨了 LoRA 秩对预训练任务和后续任务的遗忘、可塑性的重要影响,发现视觉变压器在这种方式下表现出一种 “上下文” 遗忘的行为,这是之前的连续学习研究中尚未观察到的现象。
May, 2024
通过在梯度计算中寻找低秩分解,我们研究了基于变换器模型的低秩适应(LoRA)更新的计算极限,证明了算法加速的可能性,并通过控制 LoRA 更新的计算项,基于 Strong Exponential Time Hypothesis (SETH) 实现了近乎线性的算法。
Jun, 2024
逐步压缩低秩适应(PC-LoRA)方法通过低秩适应同时进行模型压缩和微调,最终仅保留低秩适配器以取代预训练权重,实现了参数和计算量的压缩。
Jun, 2024
本文提出了一种新颖的参数高效微调方法 LoTR,通过张量分解的形式对参数进行梯度更新,进而构建每层的低秩适配器。LoTR 在低秩张量表示下对一系列层进行压缩,尤其适用于深度模型,相比于 LoRA 具有更好的参数效率,且核心张量不依赖于原始权重维度,可以变得任意小,可实现极为廉价快速的下游微调。
Feb, 2024