沿着近端随机梯度下降轨迹估计鲁棒回归的泛化性能
该研究探讨了在随机梯度下降中广泛使用的平均方案的好处。特别是,通过对最小二乘回归的随机逼近问题进行非渐进超额风险分析,提供了这些方案的性能保证,并提出了高度可并行化的随机梯度下降方法。同时,该研究认为,为了保证最小极大风险,针对混浊噪声的步长必须是噪声属性的一个函数。
Oct, 2016
本文证明了当损失函数为亚高斯函数时,基于互信息计算的以经验风险最小化为主要准则的监督机器学习算法对训练数据过拟合的泛化误差上界,此外还探究了噪声受限的迭代算法的泛化误差上界。
Jan, 2018
文章提出了一种新的,计算高效的风险极小化估计器类别,展示了它们在一般统计模型中的鲁棒性,特别地,在经典的Huber epsilon污染模型和重尾情况下。提出的核心是一种新型的鲁棒梯度下降算法,还给出了它在一般凸风险极小化问题中提供准确估计的条件,并以线性回归、逻辑回归和指数族中的规范参数估计为例。最后,在合成和实际数据集上研究了这种方法的实证表现,发现其比多种基线方法更具说服力。
Feb, 2018
本文探讨了深度学习模型的一种优化方法——随机梯度下降在泛化能力上的稳定性,提出了一种基于梯度方差的稳定性指标,并在此基础上分别分析了常规非凸损失函数、梯度主导性损失函数和带强凸规则化器的问题,得到了一系列改进的泛化误差界。
Feb, 2018
本文提供了一种算法——随机梯度下降的稳定性和泛化性的细致分析,通过消除梯度有界性、减轻光滑性和凸性函数的限制,提出了新的稳定性度量,并开发了受 SGD 迭代的风险控制的新型约束,给出了受最佳模型行为影响的泛化范围,从而在低噪声环境下使用稳定性方法得到了第一个快速上界。
Jun, 2020
本文研究了随机梯度下降和全样本梯度下降在随机凸优化模型中泛化性能的分离问题,发现经典的全样本梯度下降算法在步数相同的情况下会出现过拟合且通常需要更多的步数才能与随机梯度下降算法获得类似的泛化性能。同时本文还探讨了正则化、稳定性和隐含偏差等概念在泛化中的作用。
Feb, 2021
研究算法归纳偏差对于防止过度拟合的重要性,探讨使用常数步长随机梯度下降算法在超参数化情况下进行线性回归的问题和解决方案,提供了数据协方差矩阵全部的特征值,阐述一个可以使得泛化成为可能的偏差-方差分解,实验结果表明理论结果的正确性。
Mar, 2021
研究了梯度方法在基础随机凸优化条件下的泛化性能,并关注其与维数的依赖关系。针对全批量梯度下降(GD),通过构建学习问题,在维数为$ d = O(n^2)$的情况下,可以证明经过调整以达到经验风险最优表现的典型GD(使用n个训练样本)在具有常数概率的情况下,收敛为近似经验风险最小化器,且其相对于总体风险具有Ω(1)的过量风险。这个界限对于标准GD需要达到非平凡测试误差的训练样本数量有一个下界Ω(√d),回答了Feldman(2016)和Amir,Koren和Livni(2021b)提出的一个开放问题,表明非平凡的维数依赖性是不可避免的。此外,针对标准的一次遍历随机梯度下降(SGD),我们证明了同样的构建技术在样本复杂度上提供了类似的Ω(√d)下界,以达到非平凡的经验误差,尽管它可以实现最优的测试性能。与之前的工作(Koren,Livni,Mansour和Sherman,2022)相比,这提供了维数依赖性的指数级改进,解决了其中的一个开放问题。
Jan, 2024
研究了高维线性回归问题中,使用迭代算法得到的迭代次数从1到T的变量,并提出了估计器来估计迭代过程中的泛化误差,并应用于提前停止等问题。通过仿真实验证明了理论结果。
Apr, 2024