多次 SGM 的泛化性和隐式正则化特性
本文研究了随机梯度方法在多次迭代和小批量训练时的学习特性,并且调节了正则化特性的参数,确认了通过控制迭代次数可以达到最优的有限样本界,同时,合适的步长可以让较大的批量予以考虑,我们使用统一方法,将批量和随机梯度方法作为特例,得到了批量梯度方法的最优收敛结果 (即使在不可达的情况下)。
May, 2016
本文证明使用随机梯度方法训练的参数模型少迭代次数即可实现消失的泛化误差,提供了新的对于随机梯度方法多周期泛化性能好的解释,对于神经网络的训练也有新的稳定性解释。
Sep, 2015
本篇论文研究了随机梯度下降算法在多次迭代时对于最小二乘回归的预测能力,理论分析表明虽然单次迭代可以实现统计上的最优,但对于难题来说,多次迭代可以实现统计上的最优。我们的研究基于无限维模型,关注特征协方差矩阵的特征值衰减和最优预测器的复杂度等基于核方法的概念,研究结果得到了人工合成和真实数据上的验证。
May, 2018
本研究研究了随机梯度下降(SGD)这种普遍使用的随机优化方法的泛化特性,提供了依赖于在 SGD 计算的迭代路径上评估的随机梯度的本地统计信息的泛化误差的理论上限,其关键因素是梯度的方差及目标函数沿 SGD 路径的局部光滑性以及损失函数对最终输出的扰动敏感度和信息理论泛化界限等。
Feb, 2021
本文提供了一种算法 —— 随机梯度下降的稳定性和泛化性的细致分析,通过消除梯度有界性、减轻光滑性和凸性函数的限制,提出了新的稳定性度量,并开发了受 SGD 迭代的风险控制的新型约束,给出了受最佳模型行为影响的泛化范围,从而在低噪声环境下使用稳定性方法得到了第一个快速上界。
Jun, 2020
本文研究隐式偏差和隐式正则化对随机凸优化中随机梯度下降的影响,提供了一种简单构造来排除控制 SGD 泛化能力的分布独立的隐式正则化器的存在,并且证明了分布依赖的一般类隐式正则化器不能解释泛化的学习问题,说明了仅仅通过隐式正则化的特性来全面解释算法的泛化性能存在重大困难。
Mar, 2020
本文探讨了深度学习模型的一种优化方法 —— 随机梯度下降在泛化能力上的稳定性,提出了一种基于梯度方差的稳定性指标,并在此基础上分别分析了常规非凸损失函数、梯度主导性损失函数和带强凸规则化器的问题,得到了一系列改进的泛化误差界。
Feb, 2018
我们研究了在紧致集合上的光滑凸函数中使用随机梯度下降的泛化误差,并展示了当迭代次数 T 和数据集大小 n 以任意速率趋近于零时,我们第一次得到了一个消失的泛化误差界,该界与步长 αt=1/√t 成比例,泛化能力不需要强凸性。
Jan, 2024
本文研究了随机梯度下降和全样本梯度下降在随机凸优化模型中泛化性能的分离问题,发现经典的全样本梯度下降算法在步数相同的情况下会出现过拟合且通常需要更多的步数才能与随机梯度下降算法获得类似的泛化性能。同时本文还探讨了正则化、稳定性和隐含偏差等概念在泛化中的作用。
Feb, 2021
研究表明,我们开发并分析了一种基于梯度的优化过程,我们称之为随机控制随机梯度(SCSG)。作为 SVRG 算法集合中的一员,SCSG 利用了两个尺度上的梯度估计,在快速尺度上的更新次数受到几何随机变量的控制。与大多数现有算法不同,SCSG 的计算成本和通信成本不一定与样本大小 n 成线性比例关系;实际上,当目标精度较低时,这些成本与 n 无关。对真实数据集的实验评估确认 SCSG 的有效性。
Sep, 2016