多遍随机梯度方法的最优收敛速率
提出了一种利用小批量方案改进半随机梯度下降(S2GD)方法的 mS2GD,该方法主要用于最小化一个由很多光滑凸函数的平均值和一个简单的非光滑凸正则化器组成的强凸函数,分析表明,该方法在具有小批量效应和简单并行实现方案的情况下,可以加速算法的收敛过程。
Apr, 2015
该论文提出了一种改进的mini-batch随机双坐标上升方法,用于正则化经验损失最小化(即,支持向量机和支持向量机类型目标)。我们的分析允许灵活的抽样方案,包括数据分布跨多台机器,并结合了对损失平滑度和/或数据展开性的依赖(通过谱范数度量)。
Jul, 2015
本论文研究了随机梯度方法在凸损失函数及线性参数函数学习中的泛化特性,证明了在无惩罚或约束的情况下可以通过调整步长或数据通行次数来控制算法的稳定性和逼近性质,这被看作是一个隐式正则化的形式,并给出了数值结果验证理论发现。
May, 2016
通过实验证明大批量随机梯度下降法容易陷入训练和测试函数的尖峰最小值,从而导致模型泛化能力下降,而小批量方法表现更好,这可能是由于梯度估计中的固有噪声引起的,可以采用多种策略来帮助大批量方法消除这种泛化差距。
Sep, 2016
研究机器学习中的二个核心问题——如何预测最小值是否能推广到测试集,以及为什么随机梯度下降找到的最小值能很好地推广;探讨了小批量大小影响参数朝向大证据最小值的作用;当学习速率固定时,建议选择使测试集准确性最大化的最佳批次大小。
Oct, 2017
本篇论文研究了随机梯度下降算法在多次迭代时对于最小二乘回归的预测能力,理论分析表明虽然单次迭代可以实现统计上的最优,但对于难题来说,多次迭代可以实现统计上的最优。我们的研究基于无限维模型,关注特征协方差矩阵的特征值衰减和最优预测器的复杂度等基于核方法的概念,研究结果得到了人工合成和真实数据上的验证。
May, 2018
提出SGD收敛的通用简单定理,该定理可描述与特定概率法相关的各种SGD变体的收敛性。该定理是第一次执行这种分析,大多数SGD的变体以前从未明确考虑过。论文依赖于最近引入的期望平滑性的概念,并不依赖于随机梯度方差的统一界限。
Jan, 2019
文中讨论了一种基于随机梯度估计的优化算法, 解决了Lan (2012), Cotter等人(2011)和Liu与Belkin(2018)所提出的一些局限性, 实现了更好的并行加速效率.
Jun, 2021
我们分析了非光滑随机凸优化中全批量梯度下降(GD)的样本复杂性,表明GD的泛化误差与最优超参数选择的样本复杂性匹配,可以表示为Θ(d/m + 1/√m),其中d为维度,m为样本大小,这与最坏情况下的经验风险最小化器相符,这意味着与其他算法相比,GD没有优势。我们的界限来自一个新的泛化界限,它取决于维度、学习速率和迭代次数。对于一般的超参数,当维度严格大于样本数量时,需要Ω(1/ε^4)次迭代才能避免过拟合,这解决了schliserman2024dimension和amir2021sgd提出的一个开放问题,并改进了先前的下界,前者证明了样本大小至少必须为维度的平方根。
Apr, 2024