有序 SGD: 一种新的经验风险最小化随机优化框架
本文围绕随机梯度下降 (SGD) 优化方法,在经验风险最小化的线性预测器上,利用原始 - 对偶视角对 SGD 进行了分析,并证明了一种细粒度复杂度界的方法,以数据矩阵为基础,证明了它比现有的复杂度界更加紧密地预测了 SGD 的性能。
Jun, 2023
本研究针对带图等情景,探讨 Stochastic gradient descent (SGD) 中 consitent estimator 的效用及其相对于 unbiased estimator 的同等收敛性。实验证明,consistent estimator 在 strongly convex, convex, and nonconvex 目标下均表现良好,这一研究有助于进一步提高 SGD 的效率并设计大规模图的高效训练算法。
Jul, 2018
介绍了一种框架,用于解决凸随机极小化问题,其中目标函数变化缓慢,通过应用选择的优化算法,例如随机梯度下降(SGD),来顺序地解决极小化问题。有两种跟踪标准来评估近似极小值的质量,一种是基于对均值轨迹的准确性,另一种是基于高概率的准确性。提供了估计极小值变化的技术,以及分析结果表明最终估计会上限极小值的变化。这个估计量提供了样本量选择规则,保证了足够的时间步长使跟踪标准得到满足。实验表明,该估计方法在实践中提供了所需的跟踪精度,同时在每个时间步中使用的样本数量方面是高效的。
Oct, 2016
本研究提出了一种双重随机算法,使用新的加速多动量技术来解决学习任务中的大规模经验风险最小化问题,各迭代只访问一小批样本和同时更新一小块变量坐标,从而在同时涉及海量样本大小和超高维度时显著减少了内存引用量,实证研究也说明了该方法在实践中的高效性。
Apr, 2023
本篇论文研究了关于随机逼近问题的现有算法,提出了两种新型随机梯度算法,并在回归和逻辑分类两种经典的监督学习问题上进行了测试,得到了较好的优化效果。
Jun, 2013
本文采用一种新方法,通过估计随机优化器的稳态分布,从多条优化轨迹的集合中综合评估,旨在解决当前对深度学习优化算法有效性的理解不完整的问题。通过合成函数和计算机视觉、自然语言处理等领域的实际问题的评估,我们着重在统计框架下进行公平的基准测试和建立统计显著性,揭示了训练损失与保持精确度之间的关系以及 SGD、噪声使能变体和利用 BH 框架的新优化器的可比性能,值得注意的是,这些算法展示了与 SAM 等平坦最小值优化器相当的性能,但梯度评估减少了一半。我们期待我们的工作将促进深度学习优化的进一步探索,鼓励从单模型方法转向更加认识和利用优化器的随机性质的方法。
Mar, 2024
本文提出了一种新的随机算法,通过将强凸函数的最小化转化为函数规则化的逼近最小化,从而优化了经验风险最小化过程中的性能,实践表明该算法具有稳定性和行之有效的优势
Jun, 2015
本文介绍针对使用随机梯度下降优化的机器学习模型在训练中可能出现的离群值导致参数偏差问题提出的一种新算法,该算法通过选择一组 k 个样本中当前损失最小的进行更新的方式可以提高模型的健壮性和准确性,可能对于各类由凸损失函数构成的机器学习问题都适用。
Jan, 2020
本研究提出了 Projected Stochastic Gradient Descent(SGD)算法的一种有效扩展,可应用于许多受限函数的学习中,同时较少地应用每个迭代的约束,从而在适应区域内保持良好的优化。我们的理论分析显示,针对拥有大量约束的问题,其在单次迭代工作时间与所需迭代次数之间取得了很好的平衡。
Dec, 2015