深度学习优化：理论与算法

Dec, 2019

Optimization for deep learning: theory and algorithms

Ruoyu Sun

TL;DR本文介绍了用于训练神经网络的优化算法、如何应对梯度消失等问题的解决方案、广义优化方法（如 SGD、自适应梯度方法和分布式方法）以及神经网络训练中的全局问题。

Abstract

When and why can a neural network be successfully trained? This article provides an overview of optimization algorithms and theory for training neural networks. First, we discuss the issue of →

neural network optimization algorithms gradient explosion/vanishing sgd global issues

发现论文，激发创造

定性描述神经网络优化问题

本文通过分析，发现现代的神经网络足以直接用随机梯度下降算法实现庞大的非线性优化任务，并且能够克服局部最优解的困难。

Dec, 2014

深度学习优化理解

这篇论文全面介绍了深度学习中的优化，重点关注梯度消失和梯度爆炸带来的挑战，提出了改进梯度流和对网络的 Lipschitz 常数施加限制等策略，并将优化方法分为两类：显式优化和隐式优化。通过对多个深度学习模块的雅可比矩阵和 Lipschitz 常数进行分析和实验，为读者提供了深入的理解。

Jun, 2023

大规模机器学习优化方法

本文讨论了数值优化算法在机器学习应用中的过去、现在和未来。通过文本分类和深度神经网络训练的案例研究，探讨优化问题在机器学习中的出现和挑战，强调了大规模机器学习环境下随机梯度方法的重要性和传统梯度优化方法的局限性。基于这种视角，提出一种简单，通用的随机梯度算法，并讨论其实际表现和改进机会。最后，针对大规模机器学习的下一代优化方法进行了探讨，包括降低随机方向噪声的技术和使用二阶导数近似的方法两大研究方向。

Jun, 2016

深度网络中的理论问题：逼近、优化和泛化

简述：对深度学习的理论研究逐渐深入，从表示能力到优化、从梯度下降的泛化性质到固有隐藏复杂性的到达方式，已经有了一些解释；通过在分类任务中使用经典的均匀收敛结果，我们证明了在每个层的权重矩阵上施加单位范数约束下最小化替代指数型损失函数的有效性，从而解决了与深度网络泛化性能相关的一些谜团。

Aug, 2019

神经网络训练的计算效率

本研究从现代角度重新审视了训练神经网络的计算复杂性，提供了一些可证明高效的实用算法来训练某些类型的神经网络。

Oct, 2014

基于梯度的深度架构训练实践建议

本文是一份深度学习相关的实用指南，包含了一些常用的超参数建议，特别是关于基于反向传播梯度和基于梯度优化的学习算法方面。讨论了如何处理允许调整多个超参数时可以获得更有趣结果的事实，并总结描述了成功高效地训练和调试大规模深度神经网络的实践方法，最后探讨了更深层次结构的训练困难的开放性问题。

Jun, 2012

学习梯度下降：更好的泛化和更长的视野

本文提出了一种学习自我学习模型和一些实用技巧，以优化损失函数的训练问题，其优化器在许多任务上优于通用的优化算法和 DeepMind 的学习优化器，包括深度 MLP、CNN 和简单的 LSTM。

Mar, 2017

神经网络优化学习

本文探索一种新的用于训练浅层神经网络的优化算法，该算法使用重新强化学习的方法，可以解决高维随机优化问题，即使在梯度和神经网络架构的随机性变化时，该算法训练出的优化算法始终优于其他已知的优化算法，能够成功将 MNIST 神经网络问题泛化到在多种不同数据集上进行的神经网络问题。

Mar, 2017

深度神经网络损失曲面优化的实证分析

本文探讨了时下最先进神经网络的损失函数，以及常用随机梯度下降变体如何优化这些损失函数，探讨中发现每个优化算法在鞍点处会做出不同的选择，从而得出每个算法在鞍点处的特征选择假设。

Dec, 2016

大规模深度学习优化：综述

本文概述了在大规模深度学习中如何优化模型的准确性和效率，讨论了优化中使用的算法、大批量训练中出现的泛化差距问题，并回顾了最新的解决通信负担和减少内存占用的策略。

Nov, 2021