通过渐进范数缩放指数级快速实现边际最大化
本文提出了下降算法族,引入了一种名为坐标梯度算法的新的一阶算法,并证明了在函数强平滑的情况下,坐标梯度算法的收敛速度比梯度下降算法更快。当目标函数为凸函数时,我们提出了两种新颖的 “加速” 下降方法的框架,一种是 Nesterov 风格的,另一种是 Monteiro 和 Svaiter 风格的,都使用单个 Lyapunov 进行加速。在相同的强平滑性假设下,坐标梯度下降可以使用两个框架加速。我们提供了一些在机器学习领域中强平滑损失函数的实例和数值实验来验证我们的理论结果,另外还介绍了一些关于 Lyapunov 优化的扩展,包括导出最优通用张量方法以及将我们的框架扩展到坐标设置中。
Feb, 2019
本文探讨了如何在两层神经网络上使用标准化的梯度下降算法,证明了使用标准化梯度下降算法可以实现指数尾数损失函数的快速收敛,并讨论了凸性目标的归纳性及过拟合问题。
May, 2023
本文研究了 Leaky ReLU 神经网络的全局最优性,证明了线性可分对称数据上的梯度流算法能够收敛于全局最优的 “max-margin” 解,同时还对梯度下降在训练初期的 “简单度偏向” 现象进行了理论解释。
Oct, 2021
研究了梯度下降算法在同质神经网络中的隐式正则化,重点研究了 optimizing the logistic loss or cross-entropy loss of any homogeneous model,探讨了规范化边缘的平滑版本,形成了一个关于边缘最大化的优化问题,给出了算法的渐进性能, 并讨论了通过训练提高模型鲁棒性的潜在好处。
Jun, 2019
通过对深度神经网络上梯度下降算法的实证研究发现,通过训练集中带宽分布曲线的曲线下面积来量化模型的泛化性能是更精确的方法,并且在加入批量规范化和权重衰减的情况下得到的训练点会收敛到同一个渐近边界,但其高容量特征并不一致。
Jul, 2021
神经网络的大步梯度下降(GD)训练通常包括两个不同的阶段,第一阶段中经验风险震荡,而第二阶段中经验风险单调下降。我们研究了满足近准同质条件的两层网络中的这一现象。我们展示第二阶段开始于经验风险低于特定阈值(依赖于步长)的时刻。此外,我们展示了归一化边界在第二阶段几乎单调增长,证明了 GD 在训练非同质预测器时的内在偏差。如果数据集线性可分且激活函数的导数不为零,我们证明平均经验风险下降,暗示第一阶段必须在有限步骤中停止。最后,我们展示选择合适大步长的 GD 在经历这种阶段过渡时比单调降低风险的 GD 更高效。我们的分析适用于任意宽度的网络,超出了众所周知的神经切线核和平均场范围。
Jun, 2024
本文提出了 Scalable and Practical Natural Gradient Descent(SP-NGD)算法,一种能够解决大规模深度神经网络训练中 mini-batch size 增加导致泛化能力下降的问题,且能够快速收敛并达到类似一阶优化方法的泛化性能,同时可进行大规模分布式训练。实验结果表明,使用 SP-NGD 算法进行 ImageNet 数据集上的 ResNet-50 模型训练,能够在 5.5 分钟内,使用 32768 的 mini-batch size 和 1024 个 GPU,获得 75.4% 的 top-1 验证精度;且在 873 个步骤内,即使使用极大的 mini-batch size=131072,也能够达到 74.9% 的准确率。
Feb, 2020
通过最大线性模型的回归,我们对具有最大函数的组合线性模型进行了研究,这种模型在信号处理、统计学和其他多个领域中普遍存在,并且在相位恢复、学习整流线性单元激活函数等方面具有扩展性。我们提供了渐进收敛性分析,并证明了梯度下降和随机梯度下降在最大线性回归问题中的收敛性。数值结果验证了理论发现,尤其是在带有噪声的低样本情况下,随机梯度下降不仅在运行时间上收敛更快,而且性能优于交替最小化和梯度下降。
Aug, 2023
本文介绍了多步优化算法的收敛加速方案,并使用 Chebyshev 问题模拟了迭代过程中的行为,同时讨论了该方案在原始 - 对偶算法中的应用,并在逻辑回归问题中进行了数值实验。
Oct, 2018