ICMLJun, 2024

基于正则化的持续学习的统计理论

TL;DR我们对基于正则化的连续学习在一系列线性回归任务中进行了统计分析,重点在于不同正则化项如何影响模型性能。我们推导了作为先验估计器的收敛速率,考虑了由矩阵值超参数索引的广义 l2 正则化算法族,包括最小范数估计器和连续岭回归作为特例。随着任务的增加,我们推导了广义 l2 正则化估计器的估计误差的迭代更新公式,从中确定了导致最佳算法的超参数。有趣的是,超参数的选择能够有效平衡前向和后向知识转移的权衡,并适应数据异质性。此外,我们明确地推导出最佳算法的估计误差,它与先验估计器的误差同阶。相比之下,我们的最小范数估计器和连续岭回归的下界显示了它们的子优性。我们的理论分析的副产品是提出了在连续学习中早停和广义 l2 正则化之间的等价性,这可能具有独立的研究价值。最后,我们进行实验以补充我们的理论。