神经网络的对角缩放
本文研究了随机梯度下降在对角线线性网络上的动态规律,证明了它比梯度下降的解具有更好的泛化性能,并发现收敛速度控制偏见效应的大小,结果支持了结构化噪声可以引起更好泛化性能的理论结论。
Jun, 2021
我们提出了一种新的逐层自适应步长过程,用于解决深度学习中用于最小化经验损失函数的随机一阶优化方法中需要调整学习率的问题,并且实验证明这种方法比 fine-tuned 学习率的方法以及一些常见的一阶或二阶优化方法更有效。
May, 2023
通过引入一种快速的迭代方法,可以最小化权重的 L2 范数,同时提高了测试准确率,从而为小批量数据提供了一种替代 CIFAR-10 和 ImageNet 的 ResNet-18 中的批量和分组规范化方法
Feb, 2019
本研究探讨了利用近似方法计算 Hessian 对角线的成本,提出了一种以较小的额外计算量为代价的改进方案 HesScale,并应用于强化学习问题中的二阶优化和步长参数缩放,实验证明 HesScale 方法比现有方法优化更快,通过步长缩放提高了稳定性,这对于将二阶方法扩展到更大模型具有很大的潜力。
Jun, 2024
本研究结合随机神经网络和张量程序的概念,研究了神经网络的收敛性和梯度动态性,在多种不同体系下,从而表明了该框架不仅可以引导更强的高斯过程的设计,而且还可以深入理解现代架构中的 SGD 动态。
Feb, 2019
神经网络的大步梯度下降(GD)训练通常包括两个不同的阶段,第一阶段中经验风险震荡,而第二阶段中经验风险单调下降。我们研究了满足近准同质条件的两层网络中的这一现象。我们展示第二阶段开始于经验风险低于特定阈值(依赖于步长)的时刻。此外,我们展示了归一化边界在第二阶段几乎单调增长,证明了 GD 在训练非同质预测器时的内在偏差。如果数据集线性可分且激活函数的导数不为零,我们证明平均经验风险下降,暗示第一阶段必须在有限步骤中停止。最后,我们展示选择合适大步长的 GD 在经历这种阶段过渡时比单调降低风险的 GD 更高效。我们的分析适用于任意宽度的网络,超出了众所周知的神经切线核和平均场范围。
Jun, 2024
利用矩阵流形的几何性质,我们提出了一种自动优化方法,对神经网络的归一化参数进行优化。通过层次化的权重归一化以限制利普希茨常数并增强梯度的可靠性,使训练后的网络适用于控制应用。通过初始化网络和根据初始化网络的 2-2 增益对数据进行归一化,我们的方法首先对网络进行初始化。然后,所提出的算法基于高维球面上的指数映射来进行更新。给定一个更新方向(如负内腔梯度),我们提出了两种不同的方式来确定下降的步长。第一种算法利用目标函数沿着组合球面流形上定义的更新曲线进行的自动微分。利用方向二阶导数信息,无需显式构造海森矩阵。第二种算法利用架构感知的主导次数极小化框架进行神经网络的优化。通过这些新进展,所提出的方法避免了手动调优和学习率的调度,从而为优化归一化神经网络提供了自动化的流程。
Dec, 2023
在这篇论文中,我们展示了常用的算法(如 RMSProp 和 Adam)在调整步长向量时忽略了其适应过程对整体目标函数的影响,并通过简单问题的实验显示,与 RMSProp 和 Adam 相比,IDBD 算法可以持续改进步长向量。我们讨论了两种方法的差异和各自的限制,并建议将两种方法结合起来以提高神经网络在持续学习中的性能。
Jan, 2024
本研究提出针对神经网络的三个转换方法,以近似二阶优化方法提高学习速度,但第三个转换可能因收敛到局部最优解且隐藏神经元的输入和输出接近零而对性能造成损害。
Jan, 2013