大学习率驯服同质性：收敛与平衡效应

Oct, 2021

大学习率驯服同质性：收敛与平衡效应

Large Learning Rate Tames Homogeneity: Convergence and Balancing Effect

Yuqing Wang, Minshuo Chen, Tuo Zhao, Molei Tao

TL;DR本文研究了在一个均匀的矩阵分解问题上使用大学习率的梯度下降（GD）算法，证明了在迭代收敛过程中该算法具有收敛性，同时还发现了 GD 算法在使用大学习率时存在的偏差，被称为 'data balancing'，并提供数值实验支持我们的理论。

Abstract

Recent empirical advances show that training deep models with large learning rate often improves generalization performance. However, theoretical justifications on the benefits of large learning rate are highly l

deep models large learning rate gradient descent matrix factorization convergence theory

发现论文，激发创造

学习深度同质模型中的算法正则化：层次自动平衡

证明了通过梯度下降（以及正步长）学习多层同质函数时，该算法的梯度流可以有效地强制不同层之间的平方范数差异保持不变，从而自动平衡所有层的大小，由此可以深入研究利用一阶算法来优化学习深度模型的基本方法。

Jun, 2018

优秀的规则性形成大学习率的隐式偏差：稳定性、平衡和推动力的边界

优化中的大学习率、隐性偏差、非凸优化、规则性和收敛理论之间的关系。

Oct, 2023

方向很重要：关于中等学习率的随机梯度下降的隐式偏差

本研究针对模型学习速率为中等并逐渐降低的情况，研究了 SGD 和 GD 在超参数调节中的常见行为，以此试图解决机器学习中的算法偏差问题，并得出了不同方向偏差可能导致最终预测结果差异的结论。

Nov, 2020

矩阵分解的交替梯度下降收敛

本文研究了交替梯度下降算法应用于非对称矩阵分解目标函数的收敛性分析，证明了在充分迭代步数内，随机初始化下可以收敛到较优解，此结果可以为更广泛的非凸低秩矩阵分解问题的收敛分析提供帮助，并在实验中得到了验证。

May, 2023

深度矩阵分解的梯度下降算法：动力学和从低秩隐含的偏差

本文研究用于解决深度学习的隐含偏差问题的梯度下降算法动态收敛性，在线性网络和估计问题上，分析梯度下降中的 “有效秩” 动态变化，提出了矩阵低秩投影的有效秩，为理解深度学习奠定了基础。

Nov, 2020

关于初始大学习率在神经网络训练中正则化作用的解释

通过大学习率 SGD 与 Annealing 方案推出二层神经网络；结果表明，相比小学习率模型，它更好地推广了不容易泛化的模式，并通过实验演示使用 CIFAR-10 图像说明了该概念。

Jul, 2019

解决梯度下降隐式偏差的矩阵分解方法：贪婪的低秩学习

通过深度为 2 的矩阵分解及理论和实证证据，我们证明了梯度流（用无穷小初始化）等价于一个简单的启发式秩量化算法，同时对深度大于等于 3 的情况进行了扩展，并证明了深度的优势在于对初始化幅度的弱依赖性，因此这种秩量化更可能在实践中起作用。

Dec, 2020

非可分数据和大步长情况下的逻辑回归梯度下降

研究了使用大的恒定步长的逻辑回归问题上的梯度下降（GD）动态。

Jun, 2024

利用损失函数的二阶信息加速收敛的本地随机梯度下降

该论文通过理论分析和实验证明，本地统计梯度下降（L-SGD）可以更有效地探索损失函数的二阶信息，从而比随机梯度下降（SGD）更快地收敛。

May, 2023

深度学习的大学习率阶段：弹射机制

本文研究了学习速率对深度神经网络性能的影响，提出了一种具有可解训练动态的神经网络类，并在实际深度学习环境中验证了其预测，发现小学习率相当于传统理论下的无穷宽神经网络，而大学习率相当于梯度下降动态收敛到更平坦的极小值点，模型中预测的大而稳定的学习率范围得到了验证，同时发现在大学习率下模型性能优越。

Mar, 2020