使用部分海森矩阵的 SGD 优化深度神经网络
本文通过对训练损失函数的海森矩阵及其相关量的分析,探讨了随机梯度下降(SGD)的优化动态和泛化行为等三个问题,并在合成数据、MNIST 和 CIFAR-10 数据集上进行了大量实验支持其理论结果。
Jul, 2019
本文提出了一个基于二阶数值优化的深度学习算法。该算法使用复合数算法流的有限差分(CDSD)计算海森矩阵,通过监控泰勒级数的逼近误差,调整步长大小,实现了优化的同时保存良好的局部和全局收敛性,在深度学习任务中表现优异。
Sep, 2020
该研究提出了一种算法,它结合了随机梯度下降的计算效率和拟牛顿法利用的二阶曲率信息,通过维护和操作每个贡献函数的独立 Hessian 近似值实现不同的方法的统一。该算法适用于高维度优化问题,通过将这些二次近似值存储和操作在一个共享的、时变的、低维度子空间中,保持了计算可行性和限制了内存需求,且需要很少或不需要调整超参数。该算法与早期的随机二阶技术相反,早期技术将每个贡献函数的 Hessian 视为完整 Hessian 的噪声近似,而不是直接估计的目标。在七个不同的优化问题上进行了实验性的改进收敛表现,算法已发布为开源 Python 和 MATLAB 软件包。
Nov, 2013
本文提出一种新的分布式计算方法,用于计算海森矩阵的逆的排名 $m$ 近似,该方法利用多个 Worker 的梯度和参数的差异,有效地实现了牛顿 - 拉夫逊方法的分布式近似,并揭示出二阶方法用于大规模随机优化问题的优点和挑战,特别是我们的工作表明,结合梯度的新策略提供了关于损失曲面的进一步信息。
Sep, 2017
本文尝试缩小理论优化与实际优化之间的差距,提出了一种可扩展的二阶预处理方法来优化深度模型,利用异构硬件架构进行训练,相比于常规一阶方法在机器翻译、语言建模、点击率预测和图像分类等任务中表现出优异的性能。
Feb, 2020
通过随机梯度下降(SGD)和经验 Hessian 和梯度矩阵的谱的联合演化,我们严格地研究了训练动态的联合演化。我们证明,在多类高维混合和单层或两层神经网络的两个典型分类任务中,SGD 轨迹迅速与 Hessian 和梯度矩阵的新出现的低秩异常特征空间对齐。此外,在多层设置中,这种对齐是逐层进行的,最后一层的异常特征空间在训练过程中发生变化,并在 SGD 收敛到次优分类器时呈现秩亏。这些结果证实了过去十年中关于过参数化网络在训练过程中 Hessian 和信息矩阵的谱的广泛数值研究中出现的一些丰富预测。
Oct, 2023
本研究论文介绍了一种基于梯度的优化方法,并提出了一个计算上廉价的技术,用于获得有关张量之间交互关系的二阶信息。使用这种技术,构建了适用于各种深度神经网络结构的二阶优化方法,避免了计算 Hessian 矩阵和其近似的复杂性,并改善了现有的对角线或块对角线近似方法。
Dec, 2023
我们提出了 PYHESSIAN 框架,它可以快速计算深度神经网络的 Hessian 信息,支持分布式计算,并且可以用于分析神经网络模型,特别是损失函数曲率(即损失函数的拓扑),以便更好的理解不同模型和优化器的行为表现。通过对残差连接和 BN 层的分析,我们发现传统的方法不一定正确,BN 层不一定会使得损失函数曲率更加平滑,特别是在较浅的神经网络中。
Dec, 2019
本文提出了一种新的分布式广义线性模型训练算法,只需计算各工作器上的 Hessian 矩阵的对角块,然后提出了一种自适应方法以应对近似信息并展示了其在多个基准数据集上表现出的最新结果并显著优于现有算法。
Jun, 2018
提出了一个既能解决大规模的 Hessian 矩阵问题,又能优化非凸性的优化算法,采用了一个无限级数截断的方法,并在多种情境下进行了验证,包括在 CIFAR-10 上训练的 ResNet-18 模型。
Oct, 2023