深度学习可扩展的二阶优化
本文提出了一种新的分布式广义线性模型训练算法,只需计算各工作器上的 Hessian 矩阵的对角块,然后提出了一种自适应方法以应对近似信息并展示了其在多个基准数据集上表现出的最新结果并显著优于现有算法。
Jun, 2018
本文介绍了 Jorge,一种第二阶优化器,它通过省略矩阵求逆的计算,结合了第二阶方法的快速收敛性和第一阶方法的高计算效率。还提出了一种从 SGD 基准直接确定 Jorge 超参数的方法,从而显著减少调参工作。实证评估结果表明,在多个深度学习模型中,Jorge 优于 SGD、AdamW 和 Shampoo 等最先进的优化器,无论是在样本效率还是墙钟时间上。
Oct, 2023
本文研究了一类基于牛顿方法的优化算法在非凸机器学习问题中的应用,展示了其可以更好地利用曲率信息来逃离平坦区域和鞍点,并在泛化性能方面表现相当于或优于手动调整学习率的随机梯度下降算法。
Aug, 2017
通过提出一种特定的参数化方式,我们通过一步更新梯度和合适的超参数尺度来提高特征学习的鲁棒性,从而在大规模模型中加速深度神经网络的训练,并实现了更高的泛化性能。
Dec, 2023
本文提出了一个基于二阶数值优化的深度学习算法。该算法使用复合数算法流的有限差分(CDSD)计算海森矩阵,通过监控泰勒级数的逼近误差,调整步长大小,实现了优化的同时保存良好的局部和全局收敛性,在深度学习任务中表现优异。
Sep, 2020
该论文提出了一种基于随机线性代数的改进的二阶优化算法,重新解构了高斯牛顿迭代,使用快速 Johnson-Lindenstrauss 变换进行预处理,并使用一阶共轭梯度法得到足够好的近似解来训练 (moderately overparametrized) ReLU 网络,并且取得了快速训练的效果。
Jun, 2020
本研究论文介绍了一种基于梯度的优化方法,并提出了一个计算上廉价的技术,用于获得有关张量之间交互关系的二阶信息。使用这种技术,构建了适用于各种深度神经网络结构的二阶优化方法,避免了计算 Hessian 矩阵和其近似的复杂性,并改善了现有的对角线或块对角线近似方法。
Dec, 2023