大型语言模型微调遗忘的缩放律

Jan, 2024

Scaling Laws for Forgetting When Fine-Tuning Large Language Models

Damjan Kalajdzievski

TL;DR对细调预训练大型语言模型在下游任务中的忘记问题进行研究和量化，发现参数高效的细调策略仍然存在灾难性的忘记问题，特别是细调带有 Low-Rank Adapters（LoRA）的语言模型在性能和遗忘量之间存在强烈的线性关系，研究还给出了精确的缩放规律，显示遗忘量随着细调参数数量和更新步数呈现移位幂律的增长，同时考察了遗忘对知识、推理和 Llama 2 7B 聊天机器人中的安全保障的影响，研究表明无法通过提前停止或调整细调参数数量来避免遗忘问题，这为未来评估和开发减轻遗忘问题的细调方案开辟了重要的安全关键方向。

Abstract

We study and quantify the problem of forgetting when fine-tuning pre-trained large language models (LLMs) on a downstream task. We find th

forgetting fine-tuning large language models catastrophic forgetting parameter-efficient fine-tuning

发现论文，激发创造

贝叶斯参数高效微调克服灾难性遗忘

通过使用贝叶斯学习技术和 Laplace 逼近，我们展示了在更通用的参数高效微调（PEFT）框架中如何解决灾难性遗忘问题，并比较了使用对角和克罗内克逼近的方法在预训练知识保留上的性能差异。

Feb, 2024

遗忘学习前：在大型语言模型中利用参数算术进行知识更新

通过参数算术实现旧知识遗忘和新知识学习的新的精调范式 F-Learning 在两个公开数据集上的实验结果表明，该方法明显改善了完全精调和 LoRA 精调的知识更新性能，通过减去 LoRA 参数来忘记旧知识即可达到与完全精调相似的效果，有时甚至更好。

Nov, 2023

当扩展与 LLM 微调相遇：数据、模型和微调方法的影响

大语言模型的微调方法的缩放因子对模型性能的影响的系统实验结果表明，LLM finetuning 遵循微调数据量与其他缩放因子之间的幂函数乘法联合缩放规律，LLM 模型尺寸的扩大比预训练数据尺寸的扩大对 finetuning 更有益处，而仅考虑参数缩放的效果通常并不明显，同时最优的 finetuning 方法与任务和微调数据相关联，这些结果对于选择和开发 LLM finetuning 方法具有指导意义。

Feb, 2024

大型语言模型在连续微调中的灾难性遗忘的实证研究

大型语言模型在不断微调的过程中存在灾难性遗忘现象，尤其随着规模的增加，遗忘的严重程度也加剧，然而通过单独解码器模型 BLOOMZ 与编码器 - 解码器模型 mT0 的比较，发现 BLOOMZ 遗忘较少且保留更多知识，还观察到语言模型能够在不断微调中缓解语言偏见，同时通用指令微调有助于减轻大型语言模型在进一步微调过程中的遗忘现象。

Aug, 2023

预训练模型中逐步低秩更新中遗忘的实证分析

本文研究了使用低秩适应（LoRA）将预训练模型与现有权重进行合并的设置，并探讨了 LoRA 秩对预训练任务和后续任务的遗忘、可塑性的重要影响，发现视觉变压器在这种方式下表现出一种 “上下文” 遗忘的行为，这是之前的连续学习研究中尚未观察到的现象。

May, 2024

大语言模型的贝叶斯低秩适应

使用 Laplace-LoRA 方法，对参数高效微调的大型语言模型进行贝叶斯方法，提高模型的校准性。

Aug, 2023

参数高效的多语言摘要：实证研究

本研究通过使用 Parameter-Efficient Fine-Tuning 中的 Low-Rank Adaptation (LoRA) 探索了复杂且未被充分研究的多语言摘要任务的潜力，研究发现 LoRA 在低数据情况和跨语言转移中表现出色，当模型增大时，LoRA 和完全微调之间的性能差距减小，同时，继续训练 LoRA 获得了最佳的少样本跨语言转移表现。

Nov, 2023

对齐的大型语言模型连续预训练中的遗忘现象研究

连续预训练中灾难性遗忘现象对于已经经过微调的大规模语言模型的影响及重复问题的挑战。

Jan, 2024

参数高效调整中的分析与降低灾难性遗忘

在研究中我们发现，当大型语言模型在复杂多样的特定领域下任务中不断进行微调时，对历史任务的推理性能会显著降低，这就是所谓的灾难性遗忘问题。本文通过模态连接性的透镜，调查了连续 LLM 微调场景中不同极小值之间的几何连接，发现它可以在可塑性和稳定性之间取得平衡。基于这些发现，我们提出了一种称为 Interpolation-based LoRA（I-LoRA）的简单而有效的方法，它基于 LoRA 参数插值构建了双记忆经验回放框架。在八个特定领域的连续学习基准测试上的广泛实验和分析表明，I-LoRA 始终比先前的最先进方法取得显著提升，性能提高了高达 11%，为大型语言模型连续学习问题提供了强大的基准和研究启示。

Feb, 2024

HFT: 大型语言模型的半微调

通过定期重置部分参数，半精调可以恢复一些原始知识，并且在大规模语言模型中减轻了遗忘问题，同时在一系列下游基准测试中取得了最佳性能。

Apr, 2024