神经网络的对角缩放

May, 2017

Diagonal Rescaling For Neural Networks

Jean Lafond, Nicolas Vasilache, Léon Bottou

TL;DR定义了一种二阶神经网络随机梯度训练算法，其块对角结构有效地实现了单元激活的归一化，并研究了该算法在稳健性方面的不足之处，揭示了步长缩放的新方式以及处理成本曲率快速变化的重要性。

Abstract

We define a second-order neural network stochastic gradient training algorithm whose block-diagonal structure effectively amounts to normalizing the unit →

neural network stochastic gradient activations stepsizes cost curvature

发现论文，激发创造

隐式偏差对于对角线线性网络 SGD 的影响：随机性的证明性效益

本文研究了随机梯度下降在对角线线性网络上的动态规律，证明了它比梯度下降的解具有更好的泛化性能，并发现收敛速度控制偏见效应的大小，结果支持了结构化噪声可以引起更好泛化性能的理论结论。

Jun, 2021

深度学习随机一阶方法的逐层自适应步长

我们提出了一种新的逐层自适应步长过程，用于解决深度学习中用于最小化经验损失函数的随机一阶优化方法中需要调整学习率的问题，并且实验证明这种方法比 fine-tuned 学习率的方法以及一些常见的一阶或二阶优化方法更有效。

May, 2023

尺度归一化

研究表明，保持等距性 /isometry 可以有效加速深度神经网络的训练，包括确定性和标度归一化方法。结果表明在学习开始时保持等距性很重要，保持等距性可以加速学习。

Apr, 2016

神经网络的等效标准化

通过引入一种快速的迭代方法，可以最小化权重的 L2 范数，同时提高了测试准确率，从而为小批量数据提供了一种替代 CIFAR-10 和 ImageNet 的 ResNet-18 中的批量和分组规范化方法

Feb, 2019

应用于强化学习的可扩展 Hessian 对角近似的再审视

本研究探讨了利用近似方法计算 Hessian 对角线的成本，提出了一种以较小的额外计算量为代价的改进方案 HesScale，并应用于强化学习问题中的二阶优化和步长参数缩放，实验证明 HesScale 方法比现有方法优化更快，通过步长缩放提高了稳定性，这对于将二阶方法扩展到更大模型具有很大的潜力。

Jun, 2024

共享权重的宽神经网络的缩放极限：高斯过程行为、梯度独立性和神经切向核导出

本研究结合随机神经网络和张量程序的概念，研究了神经网络的收敛性和梯度动态性，在多种不同体系下，从而表明了该框架不仅可以引导更强的高斯过程的设计，而且还可以深入理解现代架构中的 SGD 动态。

Feb, 2019

非齐次双层网络的大步长梯度下降法：边界改善与快速优化

神经网络的大步梯度下降（GD）训练通常包括两个不同的阶段，第一阶段中经验风险震荡，而第二阶段中经验风险单调下降。我们研究了满足近准同质条件的两层网络中的这一现象。我们展示第二阶段开始于经验风险低于特定阈值（依赖于步长）的时刻。此外，我们展示了归一化边界在第二阶段几乎单调增长，证明了 GD 在训练非同质预测器时的内在偏差。如果数据集线性可分且激活函数的导数不为零，我们证明平均经验风险下降，暗示第一阶段必须在有限步骤中停止。最后，我们展示选择合适大步长的 GD 在经历这种阶段过渡时比单调降低风险的 GD 更高效。我们的分析适用于任意宽度的网络，超出了众所周知的神经切线核和平均场范围。

Jun, 2024

标准化神经网络的自动优化

利用矩阵流形的几何性质，我们提出了一种自动优化方法，对神经网络的归一化参数进行优化。通过层次化的权重归一化以限制利普希茨常数并增强梯度的可靠性，使训练后的网络适用于控制应用。通过初始化网络和根据初始化网络的 2-2 增益对数据进行归一化，我们的方法首先对网络进行初始化。然后，所提出的算法基于高维球面上的指数映射来进行更新。给定一个更新方向（如负内腔梯度），我们提出了两种不同的方式来确定下降的步长。第一种算法利用目标函数沿着组合球面流形上定义的更新曲线进行的自动微分。利用方向二阶导数信息，无需显式构造海森矩阵。第二种算法利用架构感知的主导次数极小化框架进行神经网络的优化。通过这些新进展，所提出的方法避免了手动调优和学习率的调度，从而为优化归一化神经网络提供了自动化的流程。

Dec, 2023

连续学习的步长优化

在这篇论文中，我们展示了常用的算法（如 RMSProp 和 Adam）在调整步长向量时忽略了其适应过程对整体目标函数的影响，并通过简单问题的实验显示，与 RMSProp 和 Adam 相比，IDBD 算法可以持续改进步长向量。我们讨论了两种方法的差异和各自的限制，并建议将两种方法结合起来以提高神经网络在持续学习中的性能。

Jan, 2024

将随机梯度推向二阶方法 —— 通过非线性变换的反向传播学习

本研究提出针对神经网络的三个转换方法，以近似二阶优化方法提高学习速度，但第三个转换可能因收敛到局部最优解且隐藏神经元的输入和输出接近零而对性能造成损害。

Jan, 2013