基于正则化的持续学习的优化和泛化:一种损失逼近的视角
本文研究了 Continual Learning 中基于正则化的方法,通过理论推理和实验说明了这些方法在 class-incremental 场景下不能有效学习区分不同任务的类别,在多任务强化学习或用于 Continual Learning 的预训练模型中也存在重要后果。作者认为理解正则化策略的缺陷将有助于更有效地利用它们。
Dec, 2019
我们对基于正则化的连续学习在一系列线性回归任务中进行了统计分析,重点在于不同正则化项如何影响模型性能。我们推导了作为先验估计器的收敛速率,考虑了由矩阵值超参数索引的广义 l2 正则化算法族,包括最小范数估计器和连续岭回归作为特例。随着任务的增加,我们推导了广义 l2 正则化估计器的估计误差的迭代更新公式,从中确定了导致最佳算法的超参数。有趣的是,超参数的选择能够有效平衡前向和后向知识转移的权衡,并适应数据异质性。此外,我们明确地推导出最佳算法的估计误差,它与先验估计器的误差同阶。相比之下,我们的最小范数估计器和连续岭回归的下界显示了它们的子优性。我们的理论分析的副产品是提出了在连续学习中早停和广义 l2 正则化之间的等价性,这可能具有独立的研究价值。最后,我们进行实验以补充我们的理论。
Jun, 2024
连续学习中,我们提出应该同时关注优化目标和优化方式,结合重放逼近联合目标和梯度投影优化方法,以减轻稳定性差距、增加学习效率和改善最终学习结果。
Nov, 2023
神经网络的塑性缺失意味着在学习过程中网络训练变得更加困难。我们通过改进初始化技术、提出新的正则化策略以及保持梯度多样性来改善持续学习,并证明这些替代技术在不同的监督学习任务和模型结构上能够提高持续学习性能。
Jun, 2024
该论文介绍了对于连续学习中的收敛性分析,提出了一种适应性方法用于非凸连续学习,该方法调整先前和当前任务的梯度的步长,以达到与 SGD 方法相同的收敛速度,并且在减轻每次迭代的灾难性遗忘项的情况下,改进了连续学习在几个图像分类任务中的性能。
Apr, 2024
本文提出了一种利用非对称二次函数逼近真实损失函数的方法来解决深度神经网络中的灾难性遗忘问题和大规模任务可扩展性问题的连续学习框架,并通过多个挑战性基准数据集的实验结果表明该方法优于现有方法,且可达到接近上限性能。
Aug, 2019
这篇论文介绍了一种新的 Bayesian 衍生连续学习损失函数,该函数不仅仅依赖于早期任务的后验分布,而是通过改变似然项自适应地调整模型,并将先验和似然项结合在一个框架下。
Feb, 2019
本文提出了一种称为自然连续学习(NCL)的新方法,该方法统一了权重正则化和投影梯度下降。NCL 使用贝叶斯权重正则化来鼓励在收敛时所有任务的良好表现,并结合使用先验精度的梯度投影,从而防止优化过程中的灾难性遗忘。我们的方法在前馈神经网络和循环神经网络中应用于连续学习问题时,优于标准权重正则化技术和基于投影的方法。最后,训练的网络在学习新任务时演变出特定于任务的动力学,与生物电路的实验结果类似。
Jun, 2021
本文介绍了一种新的基于神经网络的连续学习算法 UCL,该算法通过引入新的 Kullback-Leibler 散度项解决了正则化方法的两个主要问题,并在监督学习任务和强化学习任务中表现出超过最新技术的优异性能。
May, 2019