模型个性化：多模态大型语言模型中缓解灾难性遗忘

Feb, 2024

模型个性化：多模态大型语言模型中缓解灾难性遗忘

Model Tailor: Mitigating Catastrophic Forgetting in Multi-modal Large Language Models

Didi Zhu, Zhongyi Sun, Zexi Li, Tao Shen, Ke Yan...

TL;DR该论文介绍了多模态大型语言模型（MLLMs）中灾难性遗忘现象的全面分析，并引入了一种名为 Model Tailor 的后训练调整方法。该方法主要保留了预训练参数，同时替换了少量（≤ 10%）的微调参数，相比于预训练，在原始任务上保持了约 99% 的有效性，并在新任务上相比标准微调获得了约 97% 的有效性。此外，该方法适用于多任务场景，并通过在 InstructBLIP 和 LLaVA-1.5 上进行广泛实验证明了显著的任务适应能力，同时保持了内在的预训练能力。

Abstract

catastrophic forgetting emerges as a critical challenge when fine-tuning multi-modal large language models (MLLMs), where improving performance on unseen tasks often leads to a significant performance drop on the

catastrophic forgetting multi-modal large language models model tailor post-training adjustment method task adaptability

发现论文，激发创造

多模型大语言模型中的灾难性遗忘研究

通过将多模态大型语言模型（MLLM）视为图像分类器，并引入 EMT（用于评估 MLLM 中的灾难性遗忘）来评估现有的 MLLM 并检测到 fine-tuning 在图像分类任务上性能下降的问题。研究发现，几乎所有评估的 MLLM 在标准图像分类任务上都无法保持与视觉编码器相同的性能水平，并且尽管初期 fine-tuning 可以提高在其他图像数据集上的性能，但随着 fine-tuning 的进行，MLLM 开始产生幻觉，并导致了显著的泛化能力损失。因此，MLLM 在标准图像分类任务上的性能仍有待提高。

Sep, 2023

持续学习自然语言新任务中预防灾难性遗忘

该论文提出了一种基于知识蒸馏的增量学习方法，利用未标记数据避免灾难性遗忘，该方法在公开基准测试中表现出显著的效果，能够保存已获取的知识，并对增量添加的任务获得良好的性能。

Feb, 2023

大型语言模型在连续微调中的灾难性遗忘的实证研究

大型语言模型在不断微调的过程中存在灾难性遗忘现象，尤其随着规模的增加，遗忘的严重程度也加剧，然而通过单独解码器模型 BLOOMZ 与编码器 - 解码器模型 mT0 的比较，发现 BLOOMZ 遗忘较少且保留更多知识，还观察到语言模型能够在不断微调中缓解语言偏见，同时通用指令微调有助于减轻大型语言模型在进一步微调过程中的遗忘现象。

Aug, 2023

大规模多语言持续学习中克服灾难性遗忘

本论文研究在一种包含 51 种语言和分类、序列标记任务的大规模多语言持续学习框架中，灾难性遗忘问题以及最小化此问题的方法，提出了一种学习率调整方法 LR ADJUST，其能有效地保留新信息而不过度覆盖过去的知识，并且该方法在多种持续学习方法中都行之有效。还进一步深入分析了该大规模多语言环境下灾难性遗忘的动态过程。

May, 2023

参数高效调整中的分析与降低灾难性遗忘

在研究中我们发现，当大型语言模型在复杂多样的特定领域下任务中不断进行微调时，对历史任务的推理性能会显著降低，这就是所谓的灾难性遗忘问题。本文通过模态连接性的透镜，调查了连续 LLM 微调场景中不同极小值之间的几何连接，发现它可以在可塑性和稳定性之间取得平衡。基于这些发现，我们提出了一种称为 Interpolation-based LoRA（I-LoRA）的简单而有效的方法，它基于 LoRA 参数插值构建了双记忆经验回放框架。在八个特定领域的连续学习基准测试上的广泛实验和分析表明，I-LoRA 始终比先前的最先进方法取得显著提升，性能提高了高达 11%，为大型语言模型连续学习问题提供了强大的基准和研究启示。

Feb, 2024

大型语言模型调优中重新思考灾难性遗忘

本文首次揭示了大型语言模型（LLMs）的模型损失面与遗忘程度之间的直接联系，并引入了锐度感知最小化方法来减轻 Catastrophic Forgetting，通过使损失面变得平坦。实验证明该方法在缓解 Catastrophic Forgetting 方面的效果显著，并且通过与现有的抗遗忘策略的结合，进一步增强了 LLMs 的抵抗能力。

Jun, 2024

神经机器翻译的连续学习在低遗忘风险区域内进行

本篇论文提出了一种基于局部特征训练的两阶段方法，能够实现大规模预训练神经机器翻译模型的连续学习，以适应新任务，采用这种方法能够在不访问以前的训练数据或引入模型分离的情况下解决之前方法的不足。

Nov, 2022

回忆和学习：用更少的忘却对深度预训练语言模型进行微调

本论文提出了一种召回和学习机制，它采用了多任务学习的思想，联合学习预训练任务和下游任务，通过先简单地回忆预训练任务的知识，然后逐渐关注下游任务的学习，以实现减少忘记的微调。实验表明，该方法在 GLUE 基准上实现了最新的性能，并为 NLP 社区提供了开源的 RecAdam 优化器。

Apr, 2020

跨语言转移开放域对话生成中减轻灾难性遗忘的提示学习

本文探讨了如何在有限数据的情况下，使用少量样本跨语言迁移学习和多任务学习来进行开放域对话生成，同时发现了这两种方法在实验中的灾难性遗忘问题，并提出了一种简单有效的提示学习方法，以应对这一问题。实验结果表明，该方法在六种语言中均表现出了较好的效果。

May, 2023

神经机器翻译的平衡训练：超越持续学习的灾难性遗忘

针对神经网络在从动态数据分布中连续学习多个任务时逐渐忘记以前学习的知识的问题，提出了一种补充在线知识蒸馏（COKD）的解决方法，成功地缓解了不平衡训练问题并在多个机器翻译任务上取得了实质性的改进。

Mar, 2022