随机优化的单元测试
本文讨论了数值优化算法在机器学习应用中的过去、现在和未来。通过文本分类和深度神经网络训练的案例研究,探讨优化问题在机器学习中的出现和挑战,强调了大规模机器学习环境下随机梯度方法的重要性和传统梯度优化方法的局限性。基于这种视角,提出一种简单,通用的随机梯度算法,并讨论其实际表现和改进机会。最后,针对大规模机器学习的下一代优化方法进行了探讨,包括降低随机方向噪声的技术和使用二阶导数近似的方法两大研究方向。
Jun, 2016
本文采用一种新方法,通过估计随机优化器的稳态分布,从多条优化轨迹的集合中综合评估,旨在解决当前对深度学习优化算法有效性的理解不完整的问题。通过合成函数和计算机视觉、自然语言处理等领域的实际问题的评估,我们着重在统计框架下进行公平的基准测试和建立统计显著性,揭示了训练损失与保持精确度之间的关系以及 SGD、噪声使能变体和利用 BH 框架的新优化器的可比性能,值得注意的是,这些算法展示了与 SAM 等平坦最小值优化器相当的性能,但梯度评估减少了一半。我们期待我们的工作将促进深度学习优化的进一步探索,鼓励从单模型方法转向更加认识和利用优化器的随机性质的方法。
Mar, 2024
本论文提出了一种随机优化方法,该方法通过自适应地控制梯度近似计算中使用的样本量来减少方差,使用内积测试来决定增加样本量,并通过逻辑回归问题的数值实验验证了该算法的有效性。
Oct, 2017
本文提出了一种自适应学习率算法,该算法利用了损失函数的随机曲率信息自动调整学习率,并且提出了一种新的方差缩减技术以加速收敛,在深度神经网络实验中,相比于流行的随机梯度算法获得了更好的性能。
Mar, 2017
本文提出了一种高效的分布式随机优化方法,通过结合适应性与方差约减技术,从而实现任何串行在线学习算法的并行计算,能够在不需要光滑参数的先验知识的情况下实现最优收敛速率,同时通过 Spark 分布式框架的实现能够对大规模逻辑回归问题进行高效处理。
Feb, 2018
本文介绍了一种用于解决随机函数组合的凸优化问题的无偏梯度仿真算法,并将其与两个方差减少算法相结合,得出该算法基于无偏梯度仿真展现出令人满意的收敛性能,最后为两个随机函数组合优化问题应用了该算法:最大化 Cox 部分似然模型和训练条件随机场。
Nov, 2017
介绍了一种框架,用于解决凸随机极小化问题,其中目标函数变化缓慢,通过应用选择的优化算法,例如随机梯度下降(SGD),来顺序地解决极小化问题。有两种跟踪标准来评估近似极小值的质量,一种是基于对均值轨迹的准确性,另一种是基于高概率的准确性。提供了估计极小值变化的技术,以及分析结果表明最终估计会上限极小值的变化。这个估计量提供了样本量选择规则,保证了足够的时间步长使跟踪标准得到满足。实验表明,该估计方法在实践中提供了所需的跟踪精度,同时在每个时间步中使用的样本数量方面是高效的。
Oct, 2016
本文针对非凸非光滑问题提出新的算法稳定性度量方法,同时建立它们与梯度之间的量化关系,并使用采样确定算法导出了随机梯度下降算法和其自适应变种的误差界。
Jun, 2022
本文提出了一种可扩展的随机主化最小化方案,能够应对大规模或可能无限的数据集,解决凸优化问题,并开发了几种基于此框架的有效算法,包括一个新的随机近端梯度方法,用于大规模 l1 逻辑回归的非凸稀疏估计的在线 DC 编程算法和解决大规模结构矩阵分解问题的有效性。
Jun, 2013