深度学习的无逆自然梯度下降快速方法
我们展示了在大规模训练中,与一阶方法相比,具有更好收敛性质的二阶训练方法很少被使用,可能是由于计算开销过大。然而,我们通过使用适当的硬件设备,证明了某些参数区间内,自然梯度下降(NGD)这种二阶方法在每次迭代中可以具备与一阶方法类似的计算复杂度。我们提出了一种新的混合数字 - 模拟算法用于神经网络训练,该算法在某些参数范围内等效于 NGD,但避免了解线性系统代价昂贵的求解。我们的算法利用了模拟系统在热力学平衡下的性质,因此需要模拟热力学计算机。在混合数字 - 模拟循环中进行训练,梯度和费舍尔信息矩阵(或任何正定曲率矩阵)在给定的时间间隔内计算,同时进行模拟动力学。在分类任务和语言模型微调任务上,我们通过数值实验证明了这种方法相对于最先进的数字一阶和二阶训练方法的优越性。
May, 2024
用结构化的无逆自然梯度下降方法(SINGD)解决了 KFAC 方法在低精度训练中的内存低效和数值不稳定的问题,并在大型神经网络上表现出很好的性能,甚至在半精度上常常优于 AdamW。
Dec, 2023
本文提出了 Scalable and Practical Natural Gradient Descent(SP-NGD)算法,一种能够解决大规模深度神经网络训练中 mini-batch size 增加导致泛化能力下降的问题,且能够快速收敛并达到类似一阶优化方法的泛化性能,同时可进行大规模分布式训练。实验结果表明,使用 SP-NGD 算法进行 ImageNet 数据集上的 ResNet-50 模型训练,能够在 5.5 分钟内,使用 32768 的 mini-batch size 和 1024 个 GPU,获得 75.4% 的 top-1 验证精度;且在 873 个步骤内,即使使用极大的 mini-batch size=131072,也能够达到 74.9% 的准确率。
Feb, 2020
通过提出改进的经验 Fisher(iEF)方法,该论文研究了近似自然梯度下降(NGD)方法中经验 Fisher 信息矩阵的逆比例缩放问题,并在实验中评估了该方法的性能,在参数高效微调、深度学习优化等方面取得了较好的收敛性和拟合能力。
Jun, 2024
本文介绍了一种新的 Gram-Gauss-Newton (GGN) 算法用于训练使用方形损失函数的深度神经网络,并借鉴了神经切线核(NTK)的想法。与典型的二阶方法相比,GGN 在每次迭代中只有小的开销。本文还给出了理论结果,证明对于足够广的神经网络,GGN 的收敛速度是二次的。此外,我们还提供了 mini-batch GGN 算法的收敛保证,这是我们知道的第一个关于超参数神经网络 mini-batch 版本的二阶方法的收敛结果。初步的实验表明,对于训练常规网络,我们的 GGN 算法比 SGD 收敛速度更快,性能更好。
May, 2019
本文提出了一个基于二阶数值优化的深度学习算法。该算法使用复合数算法流的有限差分(CDSD)计算海森矩阵,通过监控泰勒级数的逼近误差,调整步长大小,实现了优化的同时保存良好的局部和全局收敛性,在深度学习任务中表现优异。
Sep, 2020
本文研究了使用自然梯度算法在深度学习中的应用以及其与其他三种方法的联系,并提出了使用未标记数据提高自然梯度算法推广误差鲁棒性的新方法,并将自然梯度算法扩展到包括第二阶信息和流形信息。
Jan, 2013
提出了一种新的加速一阶方法 (AXGD),采用了预测 - 校正方法,解决了凸 - 凹鞍点问题,通过隐式欧拉离散化构建了加速连续时间动态模型,并通过原始 - 对偶视角进行了分析,对于其他类别的目标也能够达到最佳收敛速度。
Jun, 2017
该论文提出了一种介于一阶方法和二阶方法之间的 “mini-block Fisher (MBF)” 预处理梯度方法,利用 GPU 的并行性实现了对每个层中大量矩阵的高效计算,且在时间效率和泛化能力方面都优于基线方法,并被证明其理想版本能够呈线性收敛。
Feb, 2022
本文尝试缩小理论优化与实际优化之间的差距,提出了一种可扩展的二阶预处理方法来优化深度模型,利用异构硬件架构进行训练,相比于常规一阶方法在机器翻译、语言建模、点击率预测和图像分类等任务中表现出优异的性能。
Feb, 2020