大型语言模型调优中重新思考灾难性遗忘

Jun, 2024

大型语言模型调优中重新思考灾难性遗忘

Revisiting Catastrophic Forgetting in Large Language Model Tuning

Hongyu Li, Liang Ding, Meng Fang, Dacheng Tao

TL;DR本文首次揭示了大型语言模型（LLMs）的模型损失面与遗忘程度之间的直接联系，并引入了锐度感知最小化方法来减轻 Catastrophic Forgetting，通过使损失面变得平坦。实验证明该方法在缓解 Catastrophic Forgetting 方面的效果显著，并且通过与现有的抗遗忘策略的结合，进一步增强了 LLMs 的抵抗能力。

Abstract

catastrophic forgetting (CF) means models forgetting previously acquired knowledge when learning new data. It compromises the effectiveness of large language models (LLMs) during fine-tuning, yet the underlying c

catastrophic forgetting large language models fine-tuning loss landscape anti-forgetting strategies

发现论文，激发创造

大型语言模型在连续微调中的灾难性遗忘的实证研究

大型语言模型在不断微调的过程中存在灾难性遗忘现象，尤其随着规模的增加，遗忘的严重程度也加剧，然而通过单独解码器模型 BLOOMZ 与编码器 - 解码器模型 mT0 的比较，发现 BLOOMZ 遗忘较少且保留更多知识，还观察到语言模型能够在不断微调中缓解语言偏见，同时通用指令微调有助于减轻大型语言模型在进一步微调过程中的遗忘现象。

Aug, 2023

深度学习中的灾难性遗忘：全面分类

近期深度学习模型在图像分类或生成等任务中取得了显著的性能，并经常超越人类的准确性。然而，它们在没有访问先前数据的情况下，学习新任务和更新知识可能会遇到困难，这导致了被称为灾难性遗忘的显著准确性损失。本文综述了关于使用梯度下降作为学习算法的现代深度学习模型中解决灾难性遗忘的最近研究，尽管已提出了多种解决方案，但尚未建立确定性的解决方案或关于评估灾难性遗忘的共识。本文对最近的解决方案进行了全面的评述，提出了一个分类法以组织这些解决方案，并明确了这一领域的研究空白。

Dec, 2023

大规模多语言持续学习中克服灾难性遗忘

本论文研究在一种包含 51 种语言和分类、序列标记任务的大规模多语言持续学习框架中，灾难性遗忘问题以及最小化此问题的方法，提出了一种学习率调整方法 LR ADJUST，其能有效地保留新信息而不过度覆盖过去的知识，并且该方法在多种持续学习方法中都行之有效。还进一步深入分析了该大规模多语言环境下灾难性遗忘的动态过程。

May, 2023

模型个性化：多模态大型语言模型中缓解灾难性遗忘

该论文介绍了多模态大型语言模型（MLLMs）中灾难性遗忘现象的全面分析，并引入了一种名为 Model Tailor 的后训练调整方法。该方法主要保留了预训练参数，同时替换了少量（≤ 10%）的微调参数，相比于预训练，在原始任务上保持了约 99% 的有效性，并在新任务上相比标准微调获得了约 97% 的有效性。此外，该方法适用于多任务场景，并通过在 InstructBLIP 和 LLaVA-1.5 上进行广泛实验证明了显著的任务适应能力，同时保持了内在的预训练能力。

Feb, 2024

DNN 中灾难性遗忘的综合应用研究

通过大规模实证研究，我们提出了一种新的实验协议，并在目前最多的视觉分类数据集上评估序列学习任务，结果表明在应用场景下，没有一种模型能够避免所有的灾难性遗忘，最后我们探讨了 EWC 和 IMM 模型的潜在解决方案和解决方法.

May, 2019

大型语言模型微调遗忘的缩放律

对细调预训练大型语言模型在下游任务中的忘记问题进行研究和量化，发现参数高效的细调策略仍然存在灾难性的忘记问题，特别是细调带有 Low-Rank Adapters（LoRA）的语言模型在性能和遗忘量之间存在强烈的线性关系，研究还给出了精确的缩放规律，显示遗忘量随着细调参数数量和更新步数呈现移位幂律的增长，同时考察了遗忘对知识、推理和 Llama 2 7B 聊天机器人中的安全保障的影响，研究表明无法通过提前停止或调整细调参数数量来避免遗忘问题，这为未来评估和开发减轻遗忘问题的细调方案开辟了重要的安全关键方向。

Jan, 2024

特化与泛化：对基础模型微调中灾难性遗忘的实证研究

为了解决 fine-tuning 中特性和广泛适用性之间的矛盾，我们研究了来自持续学习的多种规范化方法和来自越界通用化的权重平均方法，发现持续学习和 Wise-FT 方法可以有效减轻广泛适用性的损失，其中 Wise-FT 在平衡特性和广泛适用性方面表现最好。

Sep, 2023

通过 NTK 重叠矩阵理论分析灾难性遗忘

本文介绍了一个叫做 “持续学习” 的学习模式，研究了一个叫做 “灾难遗忘” 的问题，提出了一种叫做 “NTK overlap matrix” 的任务相似度度量方法，并介绍了一些算法来减轻灾难遗忘产生的影响。其中，我们提出一种基于主成分分析的正交梯度下降算法可以帮助减轻灾难遗忘在常见持续学习场景下的影响。实验结果表明，我们的方法能够有效减轻灾难遗忘的问题。

Oct, 2020

对齐的大型语言模型连续预训练中的遗忘现象研究

连续预训练中灾难性遗忘现象对于已经经过微调的大规模语言模型的影响及重复问题的挑战。

Jan, 2024

参数高效调整中的分析与降低灾难性遗忘

在研究中我们发现，当大型语言模型在复杂多样的特定领域下任务中不断进行微调时，对历史任务的推理性能会显著降低，这就是所谓的灾难性遗忘问题。本文通过模态连接性的透镜，调查了连续 LLM 微调场景中不同极小值之间的几何连接，发现它可以在可塑性和稳定性之间取得平衡。基于这些发现，我们提出了一种称为 Interpolation-based LoRA（I-LoRA）的简单而有效的方法，它基于 LoRA 参数插值构建了双记忆经验回放框架。在八个特定领域的连续学习基准测试上的广泛实验和分析表明，I-LoRA 始终比先前的最先进方法取得显著提升，性能提高了高达 11%，为大型语言模型连续学习问题提供了强大的基准和研究启示。

Feb, 2024