随机优化的单元测试

ICLRDec, 2013

Unit Tests for Stochastic Optimization

Tom Schaul, Ioannis Antonoglou, David Silver

TL;DR本文提出了一种基于单元测试的随机优化算法测试集合，用于快速评估优化算法的鲁棒性和广泛适用性。测试集合对多种现有算法进行了定量和定性分析，并提供了一个可扩展且易于应用于新算法的测试框架。

Abstract

Optimization by stochastic gradient descent is an important component of many large-scale machine learning algorithms. A wide variety of such optimization algorithms have been devised; however, it is unclear whether these algorithms are robust and widely applicable across many differen

stochastic gradient descent optimization algorithms unit tests generality robustness

发现论文，激发创造

大规模机器学习优化方法

本文讨论了数值优化算法在机器学习应用中的过去、现在和未来。通过文本分类和深度神经网络训练的案例研究，探讨优化问题在机器学习中的出现和挑战，强调了大规模机器学习环境下随机梯度方法的重要性和传统梯度优化方法的局限性。基于这种视角，提出一种简单，通用的随机梯度算法，并讨论其实际表现和改进机会。最后，针对大规模机器学习的下一代优化方法进行了探讨，包括降低随机方向噪声的技术和使用二阶导数近似的方法两大研究方向。

Jun, 2016

深度学习的超出单一模型视图：随机优化算法的优化与泛化能力

本文采用一种新方法，通过估计随机优化器的稳态分布，从多条优化轨迹的集合中综合评估，旨在解决当前对深度学习优化算法有效性的理解不完整的问题。通过合成函数和计算机视觉、自然语言处理等领域的实际问题的评估，我们着重在统计框架下进行公平的基准测试和建立统计显著性，揭示了训练损失与保持精确度之间的关系以及 SGD、噪声使能变体和利用 BH 框架的新优化器的可比性能，值得注意的是，这些算法展示了与 SAM 等平坦最小值优化器相当的性能，但梯度评估减少了一半。我们期待我们的工作将促进深度学习优化的进一步探索，鼓励从单模型方法转向更加认识和利用优化器的随机性质的方法。

Mar, 2024

随机优化的自适应采样策略

本论文提出了一种随机优化方法，该方法通过自适应地控制梯度近似计算中使用的样本量来减少方差，使用内积测试来决定增加样本量，并通过逻辑回归问题的数值实验验证了该算法的有效性。

Oct, 2017

深度学习的鲁棒自适应随机梯度方法

本文提出了一种自适应学习率算法，该算法利用了损失函数的随机曲率信息自动调整学习率，并且提出了一种新的方差缩减技术以加速收敛，在深度神经网络实验中，相比于流行的随机梯度算法获得了更好的性能。

Mar, 2017

自适应 SGD 分布式随机优化

本文提出了一种高效的分布式随机优化方法，通过结合适应性与方差约减技术，从而实现任何串行在线学习算法的并行计算，能够在不需要光滑参数的先验知识的情况下实现最优收敛速率，同时通过 Spark 分布式框架的实现能够对大规模逻辑回归问题进行高效处理。

Feb, 2018

优化随机函数组合的无偏模拟

本文介绍了一种用于解决随机函数组合的凸优化问题的无偏梯度仿真算法，并将其与两个方差减少算法相结合，得出该算法基于无偏梯度仿真展现出令人满意的收敛性能，最后为两个随机函数组合优化问题应用了该算法：最大化 Cox 部分似然模型和训练条件随机场。

Nov, 2017

自适应序列随机优化

介绍了一种框架，用于解决凸随机极小化问题，其中目标函数变化缓慢，通过应用选择的优化算法，例如随机梯度下降（SGD），来顺序地解决极小化问题。有两种跟踪标准来评估近似极小值的质量，一种是基于对均值轨迹的准确性，另一种是基于高概率的准确性。提供了估计极小值变化的技术，以及分析结果表明最终估计会上限极小值的变化。这个估计量提供了样本量选择规则，保证了足够的时间步长使跟踪标准得到满足。实验表明，该估计方法在实践中提供了所需的跟踪精度，同时在每个时间步中使用的样本数量方面是高效的。

Oct, 2016

非凸和非光滑问题随机优化的稳定性和泛化

本文针对非凸非光滑问题提出新的算法稳定性度量方法，同时建立它们与梯度之间的量化关系，并使用采样确定算法导出了随机梯度下降算法和其自适应变种的误差界。

Jun, 2022

一种随机强凸优化的最优算法

本研究考虑具有强凸（但不一定平滑）目标函数的随机凸优化问题，我们提出一种仅使用梯度更新的算法，具有最优的收敛速度。

Jun, 2010

大规模优化的随机主支配 - 最小化算法

本文提出了一种可扩展的随机主化最小化方案，能够应对大规模或可能无限的数据集，解决凸优化问题，并开发了几种基于此框架的有效算法，包括一个新的随机近端梯度方法，用于大规模 l1 逻辑回归的非凸稀疏估计的在线 DC 编程算法和解决大规模结构矩阵分解问题的有效性。

Jun, 2013