Jun, 2024

大型语言模型调优中重新思考灾难性遗忘

TL;DR本文首次揭示了大型语言模型(LLMs)的模型损失面与遗忘程度之间的直接联系,并引入了锐度感知最小化方法来减轻 Catastrophic Forgetting,通过使损失面变得平坦。实验证明该方法在缓解 Catastrophic Forgetting 方面的效果显著,并且通过与现有的抗遗忘策略的结合,进一步增强了 LLMs 的抵抗能力。