SGD优于GD在泛化方面(正则化没有帮助)
本文证明使用随机梯度方法训练的参数模型少迭代次数即可实现消失的泛化误差,提供了新的对于随机梯度方法多周期泛化性能好的解释,对于神经网络的训练也有新的稳定性解释。
Sep, 2015
本文探讨了深度学习模型的一种优化方法——随机梯度下降在泛化能力上的稳定性,提出了一种基于梯度方差的稳定性指标,并在此基础上分别分析了常规非凸损失函数、梯度主导性损失函数和带强凸规则化器的问题,得到了一系列改进的泛化误差界。
Feb, 2018
本文提供了一种算法——随机梯度下降的稳定性和泛化性的细致分析,通过消除梯度有界性、减轻光滑性和凸性函数的限制,提出了新的稳定性度量,并开发了受 SGD 迭代的风险控制的新型约束,给出了受最佳模型行为影响的泛化范围,从而在低噪声环境下使用稳定性方法得到了第一个快速上界。
Jun, 2020
本研究针对模型学习速率为中等并逐渐降低的情况,研究了SGD和GD在超参数调节中的常见行为,以此试图解决机器学习中的算法偏差问题,并得出了不同方向偏差可能导致最终预测结果差异的结论。
Nov, 2020
本文通过动态稳定性的角度研究了随机梯度下降法(SGD)的隐式正则化,并探讨了稳定的最小值对二层ReLU神经网络和对角线线性网络的广义性能影响,发现SGD的稳定性正则化较于GD更强,LR越大效果越明显,解释了为什么SGD比GD更具普适性。
May, 2023
我们研究了在紧致集合上的光滑凸函数中使用随机梯度下降的泛化误差,并展示了当迭代次数T和数据集大小n以任意速率趋近于零时,我们第一次得到了一个消失的泛化误差界,该界与步长 αt=1/√t 成比例,泛化能力不需要强凸性。
Jan, 2024
研究了梯度方法在基础随机凸优化条件下的泛化性能,并关注其与维数的依赖关系。针对全批量梯度下降(GD),通过构建学习问题,在维数为$ d = O(n^2)$的情况下,可以证明经过调整以达到经验风险最优表现的典型GD(使用n个训练样本)在具有常数概率的情况下,收敛为近似经验风险最小化器,且其相对于总体风险具有Ω(1)的过量风险。这个界限对于标准GD需要达到非平凡测试误差的训练样本数量有一个下界Ω(√d),回答了Feldman(2016)和Amir,Koren和Livni(2021b)提出的一个开放问题,表明非平凡的维数依赖性是不可避免的。此外,针对标准的一次遍历随机梯度下降(SGD),我们证明了同样的构建技术在样本复杂度上提供了类似的Ω(√d)下界,以达到非平凡的经验误差,尽管它可以实现最优的测试性能。与之前的工作(Koren,Livni,Mansour和Sherman,2022)相比,这提供了维数依赖性的指数级改进,解决了其中的一个开放问题。
Jan, 2024
我们分析了非光滑随机凸优化中全批量梯度下降(GD)的样本复杂性,表明GD的泛化误差与最优超参数选择的样本复杂性匹配,可以表示为Θ(d/m + 1/√m),其中d为维度,m为样本大小,这与最坏情况下的经验风险最小化器相符,这意味着与其他算法相比,GD没有优势。我们的界限来自一个新的泛化界限,它取决于维度、学习速率和迭代次数。对于一般的超参数,当维度严格大于样本数量时,需要Ω(1/ε^4)次迭代才能避免过拟合,这解决了schliserman2024dimension和amir2021sgd提出的一个开放问题,并改进了先前的下界,前者证明了样本大小至少必须为维度的平方根。
Apr, 2024
本文研究了在高维鲁棒回归问题中,通过梯度下降(GD)、随机梯度下降(SGD)及其近端变体获得的迭代结果的泛化性能。通过引入合适条件下可证明一致的估计量,我们提供了明确的泛化误差估计,并有效地确定了最小化泛化误差的最佳停止迭代。
Oct, 2024