二次规范化器如何防止灾难性遗忘：插值的作用

Feb, 2021

二次规范化器如何防止灾难性遗忘：插值的作用

How do Quadratic Regularizers Prevent Catastrophic Forgetting: The Role of Interpolation

Ekdeep Singh Lubana, Puja Trivedi, Danai Koutra, Robert P. Dick

TL;DR本篇论文探讨了一种防止深度神经网络在学习连续任务时出现遗忘现象的方法，即二次正则化，通过在每次训练迭代中插值当前和先前模型参数的值来防止遗忘。但是，二次正则化存在两个问题，即训练超参数的依赖性和对深层参数的低重要性，通过简单的修改可以避免这些问题并提高模型平均准确度，并且减少平均遗忘率。

Abstract

catastrophic forgetting undermines the effectiveness of deep neural networks (DNNs) in scenarios such as continual learning and lifelong learning. While several methods have been proposed to tackle this problem,

catastrophic forgetting deep neural networks quadratic regularization model parameters training iterations

发现论文，激发创造

理解连续学习中训练策略的作用

通过研究不同的训练规则，如 dropout、学习率衰减和 batch size 等，以形成训练模式，从而扩大任务的局部极小值，在帮助神经网络避免灾难性遗忘方面提供了实用的见解。

Jun, 2020

基于正则化的持续学习的优化和泛化：一种损失逼近的视角

本文提出了一种正则化连续学习的新视角，将其定义为每个任务损失函数的二阶 Taylor 近似，得到了一个可实例化的统一框架，并研究了优化和泛化特性，理论和实验结果表明二阶 Hessian 矩阵的精确近似非常重要。

Jun, 2020

线性回归中连续学习中遗忘的理解

通过随机梯度下降（SGD）在线性回归模型中提供了一般性的理论分析，揭示了任务序列与算法参数之间错综复杂的关系，探讨了连续学习中的灾难性遗忘和算法参数选取对任务学习顺序的影响，通过模拟实验验证了理论分析的结果。

May, 2024

梯度神经网络中灾难性遗忘的实证研究

探究现代神经网络机器学习模型在不同任务训练后的 “灾难性遗忘” 问题，发现以 dropout 算法为代表的梯度训练算法可以最好地适应新任务并记住旧任务，而不同任务间的关系会显著影响激活函数表现，建议激活函数选择交叉验证。

Dec, 2013

持续学习中参数隔离的保证

深度学习中的灾难性遗忘及其关联算法的几何性质研究和保证

Oct, 2023

神经网络中的灾难性遗忘测量

本文介绍了 5 种减轻神经网络灾难性遗忘的机制（规则化，合成，彩排，双重记忆和稀疏编码）并提供了新的指标和基准来直接比较它们，实验结果表明，这些机制对于实现最佳性能而言是至关重要的，但难以完全解决灾难性遗忘问题。

Aug, 2017

线性回归中灾难性遗忘能有多严重？

研究过拟合线性模型在不同输入分布下对一系列任务进行训练时出现的灾难性遗忘现象，探究其与不断学习、交错投影和 Kaczmarz 方法之间的联系，并针对具体情况提出精确的遗忘量度和上限。

May, 2022

过度参数化情况下随机正交转换任务的灾难性遗忘分析

该研究从理论上和实验证明，过参数化可以在一定程度上改善神经网络模型在连续学习中遗忘前任务的性能表现。

Jun, 2022

参数高效调整中的分析与降低灾难性遗忘

在研究中我们发现，当大型语言模型在复杂多样的特定领域下任务中不断进行微调时，对历史任务的推理性能会显著降低，这就是所谓的灾难性遗忘问题。本文通过模态连接性的透镜，调查了连续 LLM 微调场景中不同极小值之间的几何连接，发现它可以在可塑性和稳定性之间取得平衡。基于这些发现，我们提出了一种称为 Interpolation-based LoRA（I-LoRA）的简单而有效的方法，它基于 LoRA 参数插值构建了双记忆经验回放框架。在八个特定领域的连续学习基准测试上的广泛实验和分析表明，I-LoRA 始终比先前的最先进方法取得显著提升，性能提高了高达 11%，为大型语言模型连续学习问题提供了强大的基准和研究启示。

Feb, 2024

深度神经网络的少遗忘学习

研究神经网络中的遗忘问题，提出了一种不同于以往的方法来解决该问题，且不会使用源域的信息，此方法在减少遗忘源域信息方面非常有效，同时实验表明使用该方法可以提高网络在识别率等方面的性能。

Jul, 2016