机器学习引起的幂律动态
我们研究了最小二乘问题的连续时间随机梯度下降(SGD)模型的动力学。我们通过分析随机微分方程 (SDE),在训练损失(有限样本)或总体损失(在线设置)的情况下建模 SGD 来追求 Li 等人 (2019) 的研究成果。该动力学的一个关键特征是无论样本大小如何,都存在与数据完美插值器。在这两种情况下,我们提供了收敛到(可能退化的)稳态分布的精确非渐近速率。此外,我们描述了渐近分布,给出了其均值、与之偏差的估计,并证明了与步长大小有关的重尾现象的出现。我们还呈现了支持我们发现的数值模拟结果。
Jul, 2024
通过随机复合动力学,我们研究了多自由度随机系统中的多项式随机过程,通过单粒子分布引导出的 Boltzmann 分布。通过 Monto Carlo 模拟和实验数据验证了这种机制,并推测通过这种机制可以自然产生临界状态和分层结构。
Jul, 1996
神经网络的表现在训练时间、数据集大小和模型大小上预测性地提高,这一现象被称为神经缩放定律,而计算最优缩放定律则是将性能作为计算单元函数以选择模型大小来报告的;研究表明,神经网络在训练早期以 $1/ extit {width}$ 的速度收敛到无限宽度动力学,但在后期表现为 $ extit {width}^{-c}$ 的速度,其中 $c$ 取决于架构和任务的结构;此外,理论上显示了由于数据的重复重用,训练和测试损失之间的差距可以随时间逐渐增大。
Feb, 2024
使用幂律缩放在深度学习中有助于处理当前人工智能应用中的关键挑战,可用于测量训练复杂性和机器学习任务算法的量化层次,并建立数据集大小估计的基准以实现期望的测试准确性。
Nov, 2022
通过研究具有状态相关噪声的随机梯度下降的动态行为,我们证明了幂律动态可以比之前的动态更快地从锐化极小值中逃脱,从而提出了一种新方法来进一步提高其概括能力。
Jun, 2020
本研究探索了神经网络训练算法与自然过程如蛋白质折叠和进化之间的相似性,使用统计物理中 Fokker-Planck 方法将它们在一个统一的框架下探索,研究了在长时间极限下系统的稳态和出现的熵产生率,验证了涉及到这些数值的图谱存在扰动定理,提出了一种新的随机梯度 Langevin 动力学(SGLD)算法,可以应用于贝叶斯机器学习中从后验分布中获取网络权重。
Jun, 2023
本研究探讨随机优化中梯度下降算法(尤其是加速梯度下降和随机梯度下降)的渐近行为,并建立了渐近分析的计算和统计统一框架。基于时间依赖奥恩斯坦 - 乌伦贝克过程等建立梯度流中心极限定理,最终识别学习率、批处理大小、梯度协方差和黑塞矩阵等四个因素,以解决非凸优化问题。
Nov, 2017