为何学习率能够传递?调和深度学习的优化与扩展限制
大型神经网络模型的初始化和学习速率通常基于启发式方法,本研究通过对普遍存在的 Transformer 架构进行实证研究,探究 µP(µ-Parameterization)是否在实践中能够提供最佳的学习速率,并发现在大多数重要情况下 µ-Transfer 均可正常工作,但也存在一些令人惊讶的情况。
Apr, 2024
现代机器学习范式的核心主题是更大的神经网络在各种度量指标上具有更好的性能。本文对这些过参数化模型的理论分析最近集中在研究非常宽的神经网络。我们通过一个非严格但富有说明性的推导,解释了以下事实:为了有效地训练宽网络,在选择学习率和初始权重大小等超参数上只有一个自由度。这个自由度控制训练行为的丰富性:宽网络至少以类似核机器的方式进行懒惰训练,最多则在所谓的 μP 区域表现出特征学习。本文解释了这种丰富性尺度,将最近的研究结果综合为一个连贯的整体,并提供支持我们的论点的实证证据。通过这样做,我们希望进一步研究丰富性尺度,因为它可能是发展实际深度神经网络特征学习的科学理论的关键。
Apr, 2024
在深度神经网络训练中,训练动力学与损失面的几何形态和时空变化紧密关联,揭示了深度学习过程中快速的混沌瞬变和稳定状态之间的显著关系。
Oct, 2020
该论文针对深度学习的 Neural Tangent Kernel 极限和 Mean-Field 极限进行了研究,发现不同的调参可以使得网络在 lazy training 和 feature training 两种状态下表现不同,并提出了一种中间状态下集合平均方法可以提高性能。
Jun, 2019
本文研究了学习速率对深度神经网络性能的影响,提出了一种具有可解训练动态的神经网络类,并在实际深度学习环境中验证了其预测,发现小学习率相当于传统理论下的无穷宽神经网络,而大学习率相当于梯度下降动态收敛到更平坦的极小值点,模型中预测的大而稳定的学习率范围得到了验证,同时发现在大学习率下模型性能优越。
Mar, 2020
通过研究神经网络训练动态,探究权重参数在初始化过程中引入的各种因素之间的复杂相互作用,我们发现梯度下降可以快速将深层神经网络驱动至零训练误差,不论具体的初始化方案如何,只要输出函数的初始尺度超过一定阈值。这个区域被称为 theta-lazy 区域,突出了初始尺度在神经网络训练行为中的主导影响,同时我们还发现这个 theta-lazy 区域与神经切线核(NTK)范式有相似之处,但条件宽松。通过严格的分析,我们揭示了初始尺度 kappa 在神经网络训练动态中的关键作用。
Apr, 2024
在全批量情况下,训练损失 Hessian 的大特征值动态具有某些显著稳定的特征。在随机设置中,特征值的增长速度较慢,我们称之为保守锐化。我们提供了一个简单的高维模型的理论分析来解释这种减速现象。我们还展示了随机稳定边界的替代解释,它在小批量的情况下与神经切线核的迹有关,而不是大的 Hessian 特征值。我们进行了实验研究,突出了与全批量现象的定性差异,并表明控制随机稳定边界可以帮助优化。
Apr, 2024
本文研究了有限宽度的深度全连接神经网络中神经切向核的动态,并推导出一个无穷层次的普通微分方程组,它捕捉了深层神经网络的梯度下降动态。此外,在条件限制下,研究证明了 NTH 的截断层次近似于 NTK 的动态。这些描述使直接研究深度神经网络的 NTK 的变化成为可能,同时也揭示了深度神经网络胜过相应极限 NTK 的内在原因。
Sep, 2019