无正则项梯度下降学得的过参数化深度神经网络估计的 $L_2$ 误差分析
本文研究了超参数化神经网络在存在随机噪声的情况下恢复真实目标函数的能力,证明了采用 L2 正则化的神经网络与相应的神经切线核的核岭回归输出相似,并可以实现 L2 估计误差的最佳最小值,数值实验证实了该理论,同时表明 L2 正则化方法提高了训练的鲁棒性并适用于更广泛的神经网络。
Jul, 2020
研究采用随机梯度下降法训练的神经网络,通过对每一次迭代的训练标签进行独立噪声扰动,得到一个隐式正则化项,从而驱动网络向简单模型发展,并以矩阵感知、一维数据下的两层 ReLU 网络训练以及单数据点下的两层 sigmoid 激活网络训练等三个简单场景进行了阐述。
Apr, 2019
本文研究是否可以通过使用优化正则化方法避免双重下降现象。理论上,我们证明了对于某些线性回归模型,通过正则化可以实现测试性能的单调性增长,我们还通过实验证明了优化的正则化方法可以缓解双重下降现象。
Mar, 2020
我们对基于正则化的连续学习在一系列线性回归任务中进行了统计分析,重点在于不同正则化项如何影响模型性能。我们推导了作为先验估计器的收敛速率,考虑了由矩阵值超参数索引的广义 l2 正则化算法族,包括最小范数估计器和连续岭回归作为特例。随着任务的增加,我们推导了广义 l2 正则化估计器的估计误差的迭代更新公式,从中确定了导致最佳算法的超参数。有趣的是,超参数的选择能够有效平衡前向和后向知识转移的权衡,并适应数据异质性。此外,我们明确地推导出最佳算法的估计误差,它与先验估计器的误差同阶。相比之下,我们的最小范数估计器和连续岭回归的下界显示了它们的子优性。我们的理论分析的副产品是提出了在连续学习中早停和广义 l2 正则化之间的等价性,这可能具有独立的研究价值。最后,我们进行实验以补充我们的理论。
Jun, 2024
用梯度流训练具有近似保证的神经网络对目标进行测量,并在连续的带状 d 维单位球上用 L2 正规化,网络为全连接的常数深度和增加的宽度,基于神经切向核(NTK)对非凸倒数第二层的分析,呈现出欠参数化的状态以满足近似所需的自然平滑性假设。
Sep, 2023
深度神经网络在依赖数据上的显式正则化和优化性能最近取得了相当大的进展。本文研究了从强混合观测样本中进行深度学习,并处理了平方损失和一类广义损失函数。对于包括回归估计、分类、时间序列预测等的一般框架,建立了期望超越风险的奥拉克不等式并给出了一类 H"older 平滑函数的界限。针对强混合数据和次指数误差的非参数回归,我们针对 $L_2$ 误差建立了奥拉克不等式,并研究了该误差在一类 H"older 组合函数上的上界。对于具有高斯和拉普拉斯误差的非参数自回归的特定情况,我们建立了 $L_2$ 误差在此 H"older 组合类上的下界。在对数因子上,这个界限与其上界匹配,因此深度神经网络估计器实现了最佳的极小化速率。
Jun, 2024
研究了使用梯度下降法在过度参数化的双层神经网络中训练,证明了在足够过度参数化的条件下,GD 方法可以近似地将振幅算子的幂应用于生成响应 / 标签的基础 / 目标函数 $f^*$,并且提供了使用低秩逼近来减少经验风险的线性速率的足够条件,介绍了适用于球面上的多项式的一般结果的应用
May, 2019
通过对概率测度空间进行微分计算的视角,我们提出了一个探索算法的弱广义误差和 $L_2$ 广义误差的新框架。具体而言,我们考虑 KL - 正则化的经验风险最小化问题,并建立了通用条件,使得在训练样本大小为 n 的情况下,广义误差的收敛速率是 $O (1/n)$。在一隐藏层神经网络的平均场区域的监督学习方面,这些条件反映在对损失和激活函数的适当可积性和正则性假设中。
Jun, 2023
研究基于正则化函数的凸函数估计的性质,给出 $L_2$ 估计误差速率的界限,包括 True Model 的复杂度,应用于不同的正则化函数,结果适用于学习理论框架。
Aug, 2016