无惧选择:几乎所有的小批量调度都可以最优泛化
本文定义了用于 graduated optimization 的一类新的非凸函数,讨论了其充分条件,并对 graduated optimization 算法的收敛性进行了分析。研究发现,带有 mini-batch 随机梯度的随机梯度下降 (SGD) 方法可以使函数平滑的程度由学习率和 batch size 决定。此发现从 graduated optimization 的角度提供了理论洞察,解释了为何大批量大小会陷入尖锐的局部最小值,以及为何逐渐减小的学习率和逐渐增大的批量大小优于固定的学习率和批量大小,并给出了最佳的学习率调度方法。此外,分析了一种新的 graduated optimization 框架,该框架使用逐渐减小的学习率和逐渐增大的批量大小,并报告了支持我们理论发现的图像分类的实验结果。
Nov, 2023
通过实验证明大批量随机梯度下降法容易陷入训练和测试函数的尖峰最小值,从而导致模型泛化能力下降,而小批量方法表现更好,这可能是由于梯度估计中的固有噪声引起的,可以采用多种策略来帮助大批量方法消除这种泛化差距。
Sep, 2016
本文研究了随机梯度下降和全样本梯度下降在随机凸优化模型中泛化性能的分离问题,发现经典的全样本梯度下降算法在步数相同的情况下会出现过拟合且通常需要更多的步数才能与随机梯度下降算法获得类似的泛化性能。同时本文还探讨了正则化、稳定性和隐含偏差等概念在泛化中的作用。
Feb, 2021
我们研究了在紧致集合上的光滑凸函数中使用随机梯度下降的泛化误差,并展示了当迭代次数 T 和数据集大小 n 以任意速率趋近于零时,我们第一次得到了一个消失的泛化误差界,该界与步长 αt=1/√t 成比例,泛化能力不需要强凸性。
Jan, 2024
我们推导了随机梯度下降和类似算法的最优批次大小计划,通过近似离散参数更新过程为一族随机微分方程,进而使用学习率展开进行优化处理。我们应用这些结果于线性回归任务中。
Dec, 2023
我们分析了非光滑随机凸优化中全批量梯度下降(GD)的样本复杂性,表明 GD 的泛化误差与最优超参数选择的样本复杂性匹配,可以表示为 Θ(d/m + 1/√m),其中 d 为维度,m 为样本大小,这与最坏情况下的经验风险最小化器相符,这意味着与其他算法相比,GD 没有优势。我们的界限来自一个新的泛化界限,它取决于维度、学习速率和迭代次数。对于一般的超参数,当维度严格大于样本数量时,需要 Ω(1/ε^4) 次迭代才能避免过拟合,这解决了 schliserman2024dimension 和 amir2021sgd 提出的一个开放问题,并改进了先前的下界,前者证明了样本大小至少必须为维度的平方根。
Apr, 2024
本文研究了随机梯度下降(SGD)在优化非凸函数方面的应用,提出了一些收敛理论,说明了在满足结构性假设的非凸问题中,SGD 能够收敛到全局最小值,分析过程基于一个期望残差条件,相比之前的假设更加宽松。
Jun, 2020