深度学习可扩展的二阶优化

Feb, 2020

Scalable Second Order Optimization for Deep Learning

Rohan Anil, Vineet Gupta, Tomer Koren, Kevin Regan, Yoram Singer

TL;DR本文尝试缩小理论优化与实际优化之间的差距，提出了一种可扩展的二阶预处理方法来优化深度模型，利用异构硬件架构进行训练，相比于常规一阶方法在机器翻译、语言建模、点击率预测和图像分类等任务中表现出优异的性能。

Abstract

optimization in machine learning, both theoretical and applied, is presently dominated by first-order gradient methods such as stochastic gradient descent. Second-order →

optimization machine learning second-order methods deep models scalable implementation

发现论文，激发创造

线性时间内的机器学习二阶随机优化

本文提出了一种可以匹配第一阶段方法迭代成本的机器学习优化问题的二阶随机方法，具有线性时间实现的稀疏输入数据。

Feb, 2016

一个可靠的分布式二阶算法

本文提出了一种新的分布式广义线性模型训练算法，只需计算各工作器上的 Hessian 矩阵的对角块，然后提出了一种自适应方法以应对近似信息并展示了其在多个基准数据集上表现出的最新结果并显著优于现有算法。

Jun, 2018

基于二阶方法的更快差分隐私凸优化

本文研究了使用一阶和二阶优化方法的隐私保护凸优化问题，其中开发了一种基于正则化的三次牛顿法的私有算法，并在逻辑斯蒂回归问题上获得了性能优越性。

May, 2023

Jorge：高效 GPU 二阶最优化的近似预处理

本文介绍了 Jorge，一种第二阶优化器，它通过省略矩阵求逆的计算，结合了第二阶方法的快速收敛性和第一阶方法的高计算效率。还提出了一种从 SGD 基准直接确定 Jorge 超参数的方法，从而显著减少调参工作。实证评估结果表明，在多个深度学习模型中，Jorge 优于 SGD、AdamW 和 Shampoo 等最先进的优化器，无论是在样本效率还是墙钟时间上。

Oct, 2023

非凸机器学习的二阶优化：一个经验性研究

本文研究了一类基于牛顿方法的优化算法在非凸机器学习问题中的应用，展示了其可以更好地利用曲率信息来逃离平坦区域和鞍点，并在泛化性能方面表现相当于或优于手动调整学习率的随机梯度下降算法。

Aug, 2017

关于参数化的二阶优化方法适用于无限宽度

通过提出一种特定的参数化方式，我们通过一步更新梯度和合适的超参数尺度来提高特征学习的鲁棒性，从而在大规模模型中加速深度神经网络的训练，并实现了更高的泛化性能。

Dec, 2023

使用复步方向导数的二阶神经网络训练

本文提出了一个基于二阶数值优化的深度学习算法。该算法使用复合数算法流的有限差分（CDSD）计算海森矩阵，通过监控泰勒级数的逼近误差，调整步长大小，实现了优化的同时保存良好的局部和全局收敛性，在深度学习任务中表现优异。

Sep, 2020

（过参数化）神经网络的近线性时间训练

该论文提出了一种基于随机线性代数的改进的二阶优化算法，重新解构了高斯牛顿迭代，使用快速 Johnson-Lindenstrauss 变换进行预处理，并使用一阶共轭梯度法得到足够好的近似解来训练 (moderately overparametrized) ReLU 网络，并且取得了快速训练的效果。

Jun, 2020

自然梯度下降的结构化二阶方法

本研究提出了一种基于自然梯度下降的新结构化二阶方法与结构化自适应梯度方法，用于解决经典的非凸问题和深度学习问题。

Jul, 2021

通过高阶导数总结将牛顿法应用于神经网络

本研究论文介绍了一种基于梯度的优化方法，并提出了一个计算上廉价的技术，用于获得有关张量之间交互关系的二阶信息。使用这种技术，构建了适用于各种深度神经网络结构的二阶优化方法，避免了计算 Hessian 矩阵和其近似的复杂性，并改善了现有的对角线或块对角线近似方法。

Dec, 2023