旋转优化器:简单而稳健的深度神经网络训练
深度学习中优化的关键问题是通过学习优化器来加速优化过程,但其稳定性、泛化性仍存在问题。本研究通过分析网络架构对优化轨迹和参数更新分布的影响,研究并对比手动设计和学习优化器的优缺点,提出了关键见解。
Dec, 2023
本文介绍了正则化技术在深度学习中的重要性,以及在使用冲量梯度下降优化器时可能出现的问题和解决方法。作者提出了 SGDP 和 AdamP 两种解决方案,通过去除每次优化步骤中的径向分量或增加规范的方向,来维护深度神经网络的性能,并验证了这些方法对 13 个基准测试任务的实验结果。
Jun, 2020
本文介绍了一个用几何角度来研究具有 Normalization Layers 的神经网络优化的球形框架,首先得出了 Adam 的第一个有效学习率表达式,并表明在存在 NLs 的情况下,仅执行 SGD 实际上等效于限制在单位超球面上的 Adam 变体,最后通过实验证实了之前 Adam 的变体对优化过程的影响。
Jun, 2020
本文采用自由概率理论的强大工具来分析深度神经网络的输入输出雅可比矩阵的奇异值分布,研究了深度、权重初始化和非线性性之间的关系,发现深度为 ReLU 网络不能实现动态等距,而深度为 Sigmodial 网络只能通过正交权重初始化来实现等距,且正常初始化的深度 Sigmodial 网络学习效率远优于 ReLU 网络。
Nov, 2017
研究 SGD 训练的深度神经网络在性能收敛后的步长限制动态,揭示了优化超参数、梯度噪声结构及训练结束时 Hessian 矩阵之间错综复杂的相互作用,通过统计物理学的视角解释这种异常扩散现象并在 ImageNet 数据集的 ResNet-18 模型上得到了实证验证。
Jul, 2021
通过内在对称性的理论框架,使用有限差分法实现了在实践中使用的有限学习率的精确积分表达式来描述在任何数据集上通过深度学习训练出的当代网络体系结构的各种参数组合的学习动力学。
Dec, 2020
该论文提出了一种基于行和列之和的移动平均数的方法,用于估计神经网络权重矩阵的参数,并解决了自适应方法在更新时产生的过大更新的问题。该方法能够在很少的辅助存储空间中达到与 Adam 默认规则相当的结果。
Apr, 2018
本研究基于树形结构探讨如何设计深度神经网络用于实现径向函数,以实现在任意高维欧几里得空间内旋转不变性的近乎最优函数逼近。结果显示,深度网络在逼近精度和学习能力方面远优于仅具有一个隐藏层的浅层神经网络,并证明了对于学习径向函数,深度网络可以实现近乎最优的学习速率,而浅层网络却不能。因此,这项研究说明深度在神经网络设计中的必要性,以实现旋转不变的目标函数。
Apr, 2019
本文提出了两种基于对称不变梯度的权重更新方式,使用这些方式进行学习可以提高测试性能而不损失权重更新的计算效率。在 MNIST 数据集上,我们的实验证据表明这些更新有效,并且我们还展示了在图像分割问题上采用这些权重更新方法的训练结果。
Nov, 2015