梯度下降优化算法综述

Sep, 2016

An overview of gradient descent optimization algorithms

Sebastian Ruder

TL;DR本文探讨了不同变量的梯度下降，总结了挑战，介绍了最常见的优化算法以及并行和分布式设置中的结构，并研究了优化梯度下降的附加策略。

Abstract

gradient descent optimization algorithms, while increasingly popular, are often used as black-box optimizers, as practical explanations of their strengths and weaknesses are hard to come by. This article aims to

gradient descent optimization algorithms parallel and distributed setting strategies variants

发现论文，激发创造

优化算法背后的物理系统

应用基于微分方程的方法，通过将优化算法与物理系统相联系的思想，研究如何分析梯度下降、坐标梯度下降、牛顿等算法及其加速变体在机器学习中的动态，此分析适用于更广泛的算法和优化问题，超越凸性和强凸性的限制。

Dec, 2016

大规模机器学习优化方法

本文讨论了数值优化算法在机器学习应用中的过去、现在和未来。通过文本分类和深度神经网络训练的案例研究，探讨优化问题在机器学习中的出现和挑战，强调了大规模机器学习环境下随机梯度方法的重要性和传统梯度优化方法的局限性。基于这种视角，提出一种简单，通用的随机梯度算法，并讨论其实际表现和改进机会。最后，针对大规模机器学习的下一代优化方法进行了探讨，包括降低随机方向噪声的技术和使用二阶导数近似的方法两大研究方向。

Jun, 2016

深度学习优化：理论与算法

本文介绍了用于训练神经网络的优化算法、如何应对梯度消失等问题的解决方案、广义优化方法（如 SGD、自适应梯度方法和分布式方法）以及神经网络训练中的全局问题。

Dec, 2019

一种基于成本的梯度下降优化器

提出了一种基于成本的设计，选出给定机器学习任务的最佳梯度下降规划，通过优化算法和系统配置来支持机器学习的声明性框架，该框架将高层次和易于使用的语言中指定机器学习任务，实验结果表明提出的优化器不仅选择了最佳的梯度下降规划，还允许实现数倍的性能加速。

Mar, 2017

通用梯度下降

本书集合了很多关于梯度下降方法的不同而有用的知识点，包括带不精确 oracle 的梯度下降法、复合优化方法、proximal 方法，研究它们在普遍模型中的原始 - 对偶属性，最后将方法推广到通用的方法。

Nov, 2017

通过梯度下降学习梯度下降

本文探讨了使用 LSTMs 将优化算法设计转化为学习问题的方法，其中，通过让算法自动地利用感兴趣的问题中的结构，得出的学习算法在针对特定任务时比手动设计的算法表现更好，同时在具有相似结构的新任务上也具有很好的泛化性能，其应用范围从简单的凸问题，到神经网络训练和图像风格化等多种任务。

Jun, 2016

自适应 SGD 分布式随机优化

本文提出了一种高效的分布式随机优化方法，通过结合适应性与方差约减技术，从而实现任何串行在线学习算法的并行计算，能够在不需要光滑参数的先验知识的情况下实现最优收敛速率，同时通过 Spark 分布式框架的实现能够对大规模逻辑回归问题进行高效处理。

Feb, 2018

基于梯度的深度学习失败

研究了深度学习中的梯度下降算法在面对四种简单问题时出现的失败或困难，提供了实验及理论的证据和可能的解决方案。

Mar, 2017

基于梯度的深度架构训练实践建议

本文是一份深度学习相关的实用指南，包含了一些常用的超参数建议，特别是关于基于反向传播梯度和基于梯度优化的学习算法方面。讨论了如何处理允许调整多个超参数时可以获得更有趣结果的事实，并总结描述了成功高效地训练和调试大规模深度神经网络的实践方法，最后探讨了更深层次结构的训练困难的开放性问题。

Jun, 2012

基于梯度的优化方法和变分不等式在机器学习中的温和介绍

机器学习中的快速进步基于与梯度优化的高效连接，在决策和多智能体问题上的转变为算法设计的新领域提出了新的数学挑战，我们提供了一个更广泛的梯度优化算法框架的简要介绍。

Sep, 2023