本研究提出了一种基于自然梯度下降的新结构化二阶方法与结构化自适应梯度方法,用于解决经典的非凸问题和深度学习问题。
Jul, 2021
探讨了自然梯度下降法作为一种二阶优化方法的性质及其在实际应用中的影响,强调了将技术如信任区域和 Tikhonov 正则化等融入实际优化器设计中的必要性。
Dec, 2014
我们展示了在大规模训练中,与一阶方法相比,具有更好收敛性质的二阶训练方法很少被使用,可能是由于计算开销过大。然而,我们通过使用适当的硬件设备,证明了某些参数区间内,自然梯度下降(NGD)这种二阶方法在每次迭代中可以具备与一阶方法类似的计算复杂度。我们提出了一种新的混合数字 - 模拟算法用于神经网络训练,该算法在某些参数范围内等效于 NGD,但避免了解线性系统代价昂贵的求解。我们的算法利用了模拟系统在热力学平衡下的性质,因此需要模拟热力学计算机。在混合数字 - 模拟循环中进行训练,梯度和费舍尔信息矩阵(或任何正定曲率矩阵)在给定的时间间隔内计算,同时进行模拟动力学。在分类任务和语言模型微调任务上,我们通过数值实验证明了这种方法相对于最先进的数字一阶和二阶训练方法的优越性。
May, 2024
我们提出了一种新的算法,用于在参数数量明显超过可用样本数量的大规模场景中高效解决阻尼 Fisher 矩阵的问题,这对于自然梯度下降和随机重新构建来说非常重要。我们的算法基于 Cholesky 分解,具有广泛的适用性,并且基准结果表明该算法比现有方法快得多。
Oct, 2023
本文首次分析了自然梯度下降在非线性神经网络中的收敛速度,发现若序列导数矩阵显满秩且在初始化附近稳定,则该方法在随机初始化时就能快速收敛。对于深度 ReLU 神经网络,作者在过度参数化及输入非退化的条件下论证了这两个条件在训练期间均得以保持,并将分析拓展到其他损失函数,同时说明使用 K-FAC 近似方法也能在相同条件下达到全局最小值。
May, 2019
通过使用二阶信息的标准化梯度下降法(NormGD)来解决参数估计问题,可以在样本量 n 的对数数量级内收敛,从而实现了达到最终统计半径的最优总体计算复杂度 O (n)。
Feb, 2022
本文研究使用自然梯度方法解决贝叶斯深度学习中的复杂模型的计算挑战,并表明这种方法在提高收敛性方面有优势。
Jul, 2018
自然梯度下降是一种具有鲁棒训练行为的优化算法,与网络重新参数化具有不变性,通过从流形上的微分同胚群到该状态空间的切空间的函子确定优化器的状态空间,这种算法在训练网络时具有更高的效率。
Dec, 2023
我们介绍了 EGN,一种随机二阶优化算法,将广义高斯 - 牛顿(GN)Hessian 近似与低秩线性代数相结合,计算下降方向。借助 Duncan-Guttman 矩阵恒等式,通过分解一个与小批次大小相同的矩阵来获得参数更新,这在维度远超批次大小的大规模机器学习问题中特别有优势。此外,我们展示了如何将线搜索、自适应正则化和动量等改进无缝地添加到 EGN 中以进一步加速算法。此外,在温和假设下,我们证明了我们的算法以线性速率收敛到一个 ε- 稳定点。最后,我们的数值实验表明,在各种监督学习和强化学习任务中,EGN 始终超过或最多与 SGD、Adam 和 SGN 等优化器的泛化性能相匹配。
本研究提出了一种名为 FNGD 的快速自然梯度下降方法,通过在第一个迭代周期内计算逆运算,避免了在每次迭代中计算逆运算,从而使计算复杂度接近于一阶方法。通过在图像分类和机器翻译任务上进行实证评估,证明了所提出的 FNGD 方法的高效性。
Mar, 2024