May, 2024

预训练模型中逐步低秩更新中遗忘的实证分析

TL;DR本文研究了使用低秩适应(LoRA)将预训练模型与现有权重进行合并的设置,并探讨了LoRA秩对预训练任务和后续任务的遗忘、可塑性的重要影响,发现视觉变压器在这种方式下表现出一种“上下文”遗忘的行为,这是之前的连续学习研究中尚未观察到的现象。