低秩适应的连续学习

Nov, 2023

Continual Learning with Low Rank Adaptation

Martin Wistuba, Prabhu Teja Sivaprasad, Lukas Balles, Giovanni Zappella

TL;DR本文主要研究了基于预训练转换器的领域增量学习问题，在课题涉及的下游数据上，该方法表现出了令人印象深刻的性能，但当数据特征发生变化时，性能会下降；通过研究 Low Rank Adaptation（LoRA）在领域增量学习中的适用性，我们的基于 LoRA 的解决方案 CoLoR 在一系列领域增量学习基准测试中取得了最先进的性能，同时仍然与基于提示调整的方法一样参数高效。

Abstract

Recent work using pretrained transformers has shown impressive performance when fine-tuned with data from the downstream problem of interest. However, they struggle to retain that performance when the data characteristics changes. In this paper, we focus on →

pretrained transformers continual learning low rank adaptation (lora)domain-incremental learning benchmarks color

发现论文，激发创造

InfLoRA: 自动学习的无干扰低秩适应

通过注入少量参数重参数化预训练权重，InfLoRA 方法设计了一个子空间来消除新任务对旧任务的干扰，实现了稳定性和可塑性之间的良好权衡，从而在多个数据集上胜过现有最先进的持续学习方法。

Mar, 2024

LoRA 学习更少，遗忘更少

通过在编程和数学这两个目标领域上比较 Low-Rank Adaptation (LoRA) 和全精调 (full finetuning) 的性能，我们发现在大多数情况下，LoRA 的表现明显逊于全精调；然而，LoRA 展现了一种理想的正则化形式，并且可以更好地保持基础模型在目标领域之外的任务表现，同时比传统技术如权重衰减和 dropout 提供了更强的正则化效果，并有助于生成更多样化的结果。我们还发现全精调学习到的扰动比典型 LoRA 配置的秩高 10-100 倍，这可能解释了一些报告中的差距。最后，我们提出了在使用 LoRA 进行精调时的最佳实践建议。

May, 2024

LoRA: 大型语言模型的低秩适应

本文提出了一种低秩适应方法（Low-Rank Adaptation，简称 LoRA），通过将可训练秩分解矩阵注入变压器结构的每个层中，极大地减少了下游任务中的可训练参数，并且性能与微调相当或更好，同时具有更高的训练吞吐量和没有额外推理延迟，这解决了大规模预训练模型对于微调参数和 GPU 内存占用过高的问题。

Jun, 2021

基于 LoRA 的持续学习的任务算术

我们提出了一种新颖的方法，利用低秩适应和任务算术，不断训练基于 Transformer 的视觉模型，绕过灾难性遗忘问题并减少训练计算需求。在每个类别仅使用 10 个样本的小内存的帮助下，我们的方法实现了接近于完整微调的性能，并通过严格的消融实验证明了我们方法的优势。

Nov, 2023

使用并行低秩适配器从头训练神经网络

深度学习模型的可扩展性受到计算资源、内存和通讯的根本限制。本文在模型预训练中探索了低秩适应（LoRA）方法的应用，介绍了 LoRA-the-Explorer（LTE）算法，通过在计算节点上进行多个低秩头的并行训练来减少同步频率，使用不同视觉数据集进行广泛实验，并证明 LTE 在标准预训练中具有竞争力。

Feb, 2024

ALoRA: 为大型语言模型调整低秩适应

通过 AB-LoRA 方法，逐步修剪过多和负面影响的 LoRA 排名，并将修剪后的 LoRA 预算分配给需要更高排名的重要 Transformer 模块，实现了分配低秩适应 (ALoRA) 的灵活下游任务适应方法。实验结果表明，ALoRA 方法在可调参数相当的情况下优于最近的基准模型。

Mar, 2024

预训练模型中逐步低秩更新中遗忘的实证分析

本文研究了使用低秩适应（LoRA）将预训练模型与现有权重进行合并的设置，并探讨了 LoRA 秩对预训练任务和后续任务的遗忘、可塑性的重要影响，发现视觉变压器在这种方式下表现出一种 “上下文” 遗忘的行为，这是之前的连续学习研究中尚未观察到的现象。

May, 2024

基于 Transformer 模型的低秩自适应 (LoRA) 的计算限制

通过在梯度计算中寻找低秩分解，我们研究了基于变换器模型的低秩适应（LoRA）更新的计算极限，证明了算法加速的可能性，并通过控制 LoRA 更新的计算项，基于 Strong Exponential Time Hypothesis (SETH) 实现了近乎线性的算法。

Jun, 2024

PC-LoRA：基于知识蒸馏的逐步模型压缩的低秩适应

逐步压缩低秩适应（PC-LoRA）方法通过低秩适应同时进行模型压缩和微调，最终仅保留低秩适配器以取代预训练权重，实现了参数和计算量的压缩。

Jun, 2024

LoTR：低张量秩权重适应

本文提出了一种新颖的参数高效微调方法 LoTR，通过张量分解的形式对参数进行梯度更新，进而构建每层的低秩适配器。LoTR 在低秩张量表示下对一系列层进行压缩，尤其适用于深度模型，相比于 LoRA 具有更好的参数效率，且核心张量不依赖于原始权重维度，可以变得任意小，可实现极为廉价快速的下游微调。

Feb, 2024