机器学习中的非自然算法

Dec, 2023

Unnatural Algorithms in Machine Learning

Christian Goodbrake

TL;DR自然梯度下降是一种具有鲁棒训练行为的优化算法，与网络重新参数化具有不变性，通过从流形上的微分同胚群到该状态空间的切空间的函子确定优化器的状态空间，这种算法在训练网络时具有更高的效率。

Abstract

natural gradient descent has a remarkable property that in the small learning rate limit, it displays an invariance with respect to network reparameterizations, leading to robust training behavior even for highly covariant network parameterizations. We show that →

natural gradient descent optimization algorithms network reparameterizations network evolution machine learning training algorithms

发现论文，激发创造

加速自然梯度与高阶不变性

本文使用里奥曼几何和数值微分方程的理论研究，探讨了自然梯度算法的基本不变性质在小步长应用场景的问题。我们提出了一种使用高阶积分器和测地线修正的方案以获得更不变的优化轨迹，并在神经网络和强化学习任务中展示了该方案的有效性和计算效率不输自然梯度本身。

Mar, 2018

自然神经网络

研究引入了自然神经网络，旨在通过调整内部表示来加速收敛并改善 Fisher 矩阵的条件。使用简单高效的参数重整方式，从而能够保留神经网络的正向传播计算。研究表明，通过提出的投影自然梯度下降算法 (PRONG)，这种神经网络能够高效地训练；研究同时在无监督和监督学习任务上证明了该方法的优点，并通过对大规模 ImageNet Challenge 数据集的训练显示了其可伸缩性。

Jul, 2015

超参数神经网络的自然梯度下降快速收敛

本文首次分析了自然梯度下降在非线性神经网络中的收敛速度，发现若序列导数矩阵显满秩且在初始化附近稳定，则该方法在随机初始化时就能快速收敛。对于深度 ReLU 神经网络，作者在过度参数化及输入非退化的条件下论证了这两个条件在训练期间均得以保持，并将分析拓展到其他损失函数，同时说明使用 K-FAC 近似方法也能在相同条件下达到全局最小值。

May, 2019

深度网络的自然梯度再探

本文研究了使用自然梯度算法在深度学习中的应用以及其与其他三种方法的联系，并提出了使用未标记数据提高自然梯度算法推广误差鲁棒性的新方法，并将自然梯度算法扩展到包括第二阶信息和流形信息。

Jan, 2013

神经网络的近似和梯度下降训练

通过研究使用神经切向核（NTK）优化方法来训练的网络，本文对使用梯度下降训练的网络建立了类似的结果，以扩展逼近结果的平滑性，从而显示了这两种理论的兼容性。

May, 2024

神经网络梯度下降训练中的普适性尺度律

本文通过对梯度下降训练的神经网络的优化轨迹进行研究，展示了学习轨迹可以用大训练时间的显式渐近特征描述。

May, 2021

线性神经网络训练中隐性偏差的统一视角

研究了线性神经网络训练中渐进流（即用无穷小步长的梯度下降法）的隐含偏差；提出了神经网络的张量形式，包括全连接、对角线和卷积网络等特例，并研究了称为线性张量网络的公式的线性版本。通过这个公式，我们可以将网络的收敛方向表征为由网络定义的张量的奇异向量。