深度学习优化:理论与算法
这篇论文全面介绍了深度学习中的优化,重点关注梯度消失和梯度爆炸带来的挑战,提出了改进梯度流和对网络的 Lipschitz 常数施加限制等策略,并将优化方法分为两类:显式优化和隐式优化。通过对多个深度学习模块的雅可比矩阵和 Lipschitz 常数进行分析和实验,为读者提供了深入的理解。
Jun, 2023
本文讨论了数值优化算法在机器学习应用中的过去、现在和未来。通过文本分类和深度神经网络训练的案例研究,探讨优化问题在机器学习中的出现和挑战,强调了大规模机器学习环境下随机梯度方法的重要性和传统梯度优化方法的局限性。基于这种视角,提出一种简单,通用的随机梯度算法,并讨论其实际表现和改进机会。最后,针对大规模机器学习的下一代优化方法进行了探讨,包括降低随机方向噪声的技术和使用二阶导数近似的方法两大研究方向。
Jun, 2016
简述:对深度学习的理论研究逐渐深入,从表示能力到优化、从梯度下降的泛化性质到固有隐藏复杂性的到达方式,已经有了一些解释;通过在分类任务中使用经典的均匀收敛结果,我们证明了在每个层的权重矩阵上施加单位范数约束下最小化替代指数型损失函数的有效性,从而解决了与深度网络泛化性能相关的一些谜团。
Aug, 2019
本文是一份深度学习相关的实用指南,包含了一些常用的超参数建议,特别是关于基于反向传播梯度和基于梯度优化的学习算法方面。讨论了如何处理允许调整多个超参数时可以获得更有趣结果的事实,并总结描述了成功高效地训练和调试大规模深度神经网络的实践方法,最后探讨了更深层次结构的训练困难的开放性问题。
Jun, 2012
本文提出了一种学习自我学习模型和一些实用技巧,以优化损失函数的训练问题,其优化器在许多任务上优于通用的优化算法和 DeepMind 的学习优化器,包括深度 MLP、CNN 和简单的 LSTM。
Mar, 2017
本文探索一种新的用于训练浅层神经网络的优化算法,该算法使用重新强化学习的方法,可以解决高维随机优化问题,即使在梯度和神经网络架构的随机性变化时,该算法训练出的优化算法始终优于其他已知的优化算法,能够成功将 MNIST 神经网络问题泛化到在多种不同数据集上进行的神经网络问题。
Mar, 2017
本文探讨了时下最先进神经网络的损失函数,以及常用随机梯度下降变体如何优化这些损失函数,探讨中发现每个优化算法在鞍点处会做出不同的选择,从而得出每个算法在鞍点处的特征选择假设。
Dec, 2016
本文概述了在大规模深度学习中如何优化模型的准确性和效率,讨论了优化中使用的算法、大批量训练中出现的泛化差距问题,并回顾了最新的解决通信负担和减少内存占用的策略。
Nov, 2021