基于正则化的持续学习的统计理论

ICMLJun, 2024

基于正则化的持续学习的统计理论

A Statistical Theory of Regularization-Based Continual Learning

Xuyang Zhao, Huiyuan Wang, Weiran Huang, Wei Lin

TL;DR我们对基于正则化的连续学习在一系列线性回归任务中进行了统计分析，重点在于不同正则化项如何影响模型性能。我们推导了作为先验估计器的收敛速率，考虑了由矩阵值超参数索引的广义 l2 正则化算法族，包括最小范数估计器和连续岭回归作为特例。随着任务的增加，我们推导了广义 l2 正则化估计器的估计误差的迭代更新公式，从中确定了导致最佳算法的超参数。有趣的是，超参数的选择能够有效平衡前向和后向知识转移的权衡，并适应数据异质性。此外，我们明确地推导出最佳算法的估计误差，它与先验估计器的误差同阶。相比之下，我们的最小范数估计器和连续岭回归的下界显示了它们的子优性。我们的理论分析的副产品是提出了在连续学习中早停和广义 l2 正则化之间的等价性，这可能具有独立的研究价值。最后，我们进行实验以补充我们的理论。

Abstract

We provide a statistical analysis of regularization-based continual learning on a sequence of linear regression tasks, with emphasis on how different regularization terms affect the model performance. We first de

regularization-based continual learning linear regression tasks generalized l2-regularization algorithms hyperparameters estimation error

发现论文，激发创造

基于正则化的持续学习的优化和泛化：一种损失逼近的视角

本文提出了一种正则化连续学习的新视角，将其定义为每个任务损失函数的二阶 Taylor 近似，得到了一个可实例化的统一框架，并研究了优化和泛化特性，理论和实验结果表明二阶 Hessian 矩阵的精确近似非常重要。

Jun, 2020

关于最小二乘回归的早停规则

线性回归问题中，我们分析了离散全批量梯度下降的参数轨迹和期望过度风险，证明了使用学习率调度和有限时间内的早停解与广义岭正则化问题的最小范数解等价，并表明早停对于具有任意频谱和多种学习率调度的一般数据都是有益的。我们给出了最佳停止时间的估计并通过实验证明了估计的准确性。

Jun, 2024

自适应正则化的基于不确定性的永续学习

本文介绍了一种新的基于神经网络的连续学习算法 UCL，该算法通过引入新的 Kullback-Leibler 散度项解决了正则化方法的两个主要问题，并在监督学习任务和强化学习任务中表现出超过最新技术的优异性能。

May, 2019

通过谱正则化实现持续学习

神经网络的塑性缺失意味着在学习过程中网络训练变得更加困难。我们通过改进初始化技术、提出新的正则化策略以及保持梯度多样性来改善持续学习，并证明这些替代技术在不同的监督学习任务和模型结构上能够提高持续学习性能。

Jun, 2024

非凸统计估计中的隐式正则化：梯度下降在相位恢复、矩阵补全和盲源分离问题中线性收敛

研究非凸优化问题中梯度下降算法的隐式正则化特性，证明在多种统计模型中，梯度下降算法在没有显式正则化的情况下也能够实现正则化，并在相位恢复、低秩矩阵补全和盲反卷积等三个基本统计估计问题中实现近乎最优的统计和计算保证。

Nov, 2017

凸损失函数学习的迭代正则化

本文提出了一种基于次梯度方法的新型迭代正则化形式，经过实验迭代停止可以实现广义化。在再生核希尔伯特空间的非参数设定下，我们证明了在一般正则条件下的有限样本损失风险界。本研究提供了一类高效正则化学习算法，并给出了统计学和优化学在机器学习中相互作用的见解。

Mar, 2015

连续学习的正则化不足

本文研究了 Continual Learning 中基于正则化的方法，通过理论推理和实验说明了这些方法在 class-incremental 场景下不能有效学习区分不同任务的类别，在多任务强化学习或用于 Continual Learning 的预训练模型中也存在重要后果。作者认为理解正则化策略的缺陷将有助于更有效地利用它们。

Dec, 2019

无正则项梯度下降学得的过参数化深度神经网络估计的 $L_2$ 误差分析

通过合适的初始化、梯度下降步数和步长选择，在深度神经网络中无需正则化项，可以达到普适的一致性和收敛速度，而且对于有界预测变量，$L_2$ 误差收敛速度约为 $n^{-1/(1+d)}$，对于交互模型，收敛速度与输入维度 $d$ 无关。

Nov, 2023

学习核的 L2 正则化

本文研究了使用 L2 正则化学习相同内核类族的内核以及使用 Ridge 回归学习内核的问题。作者得出了优化问题的解决方案，并提出了一种有效的迭代算法来计算该解决方案。此外，该文基于稳定性进行了一项新颖的理论分析，并给出了包含仅有一个加性项 O（pp/m）的正交内核的学习界，当与标准内核 Ridge 回归稳定性界进行比较时。我们的实验结果表明，L1 正则化可以在少量的内核中带来适度的改进，但在大规模情况下的性能降低，而 L2 正则化在大量内核下实现了显著的性能改进。

May, 2012

在线学习作为正则化路径的随机逼近

本文介绍一种在线学习算法，该算法是收敛于再生核希尔伯特空间（RKHS）中的回归函数的正则化路径的顺序随机逼近。通过小心选择增益或步长序列，我们展示了可以生产出批量学习的最佳已知强收敛速率，并给出了弱收敛速率，其在文献中达到了最小化和个人较低速率的最优水平，并利用 Hilbert 空间中鞍点型不等式为鞍点型型不等式的马尔可夫过程推导出几乎肯定的收敛。通过类似于批量学习设置的偏差 - 方差分解，我们证明偏差包括沿正则化路径的逼近误差和漂移误差，这些误差显现了相同的收敛速率，而方差则来自样本误差，分析为反向鞍点型差分序列，上述速率通过偏差和方差之间的最佳折衷得到。

Mar, 2011