机器学习引起的幂律动态

Jun, 2023

Power-law Dynamic arising from machine learning

Wei Chen, Weitao Du, Zhi-Ming Ma, Qi Meng

TL;DR该研究考察了一种新的随机微分方程 —— 称为幂律动力学 —— 以及它的平稳分布和遗传时间，证明了在学习速率足够小的情况下，该幂律动力学是遗传的且具有唯一的平稳分布。

Abstract

We study a kind of new sde that was arisen from the research on optimization in machine learning, we call it power-law dynamic because its

sde power-law dynamic ergodic stationary distribution machine learning

发现论文，激发创造

最小二乘随机梯度下降的随机微分方程模型

我们研究了最小二乘问题的连续时间随机梯度下降（SGD）模型的动力学。我们通过分析随机微分方程 (SDE)，在训练损失（有限样本）或总体损失（在线设置）的情况下建模 SGD 来追求 Li 等人 (2019) 的研究成果。该动力学的一个关键特征是无论样本大小如何，都存在与数据完美插值器。在这两种情况下，我们提供了收敛到（可能退化的）稳态分布的精确非渐近速率。此外，我们描述了渐近分布，给出了其均值、与之偏差的估计，并证明了与步长大小有关的重尾现象的出现。我们还呈现了支持我们发现的数值模拟结果。

Jul, 2024

幂律是对数玻尔兹曼定律

通过随机复合动力学，我们研究了多自由度随机系统中的多项式随机过程，通过单粒子分布引导出的 Boltzmann 分布。通过 Monto Carlo 模拟和实验数据验证了这种机制，并推测通过这种机制可以自然产生临界状态和分层结构。

Jul, 1996

神经网络梯度下降训练中的普适性尺度律

本文通过对梯度下降训练的神经网络的优化轨迹进行研究，展示了学习轨迹可以用大训练时间的显式渐近特征描述。

May, 2021

神经缩放法则的动力学模型

神经网络的表现在训练时间、数据集大小和模型大小上预测性地提高，这一现象被称为神经缩放定律，而计算最优缩放定律则是将性能作为计算单元函数以选择模型大小来报告的；研究表明，神经网络在训练早期以 $1/ extit {width}$ 的速度收敛到无限宽度动力学，但在后期表现为 $ extit {width}^{-c}$ 的速度，其中 $c$ 取决于架构和任务的结构；此外，理论上显示了由于数据的重复重用，训练和测试损失之间的差距可以随时间逐渐增大。

Feb, 2024

利用幂律缩放应对人工智能面临的关键挑战

使用幂律缩放在深度学习中有助于处理当前人工智能应用中的关键挑战，可用于测量训练复杂性和机器学习任务算法的量化层次，并建立数据集大小估计的基准以实现期望的测试准确性。

Nov, 2022

具有状态相关噪声的随机梯度下降动态

通过研究具有状态相关噪声的随机梯度下降的动态行为，我们证明了幂律动态可以比之前的动态更快地从锐化极小值中逃脱，从而提出了一种新方法来进一步提高其概括能力。

Jun, 2020

学习曲线理论

本研究论文重点研究了神经网络中数据尺寸 (n) 对于训练或测试误差的普适性缩放规律，并通过研发最简单的模型来分析学习曲线，探究数据分布是否对于这种规律产生影响。

Feb, 2021

机器学习的平衡状态内外

本研究探索了神经网络训练算法与自然过程如蛋白质折叠和进化之间的相似性，使用统计物理中 Fokker-Planck 方法将它们在一个统一的框架下探索，研究了在长时间极限下系统的稳态和出现的熵产生率，验证了涉及到这些数值的图谱存在扰动定理，提出了一种新的随机梯度 Langevin 动力学（SGLD）算法，可以应用于贝叶斯机器学习中从后验分布中获取网络权重。

Jun, 2023

扩散模型的几何视角

本文研究扩散模型的采样动力学，通过挖掘它的几何结构，提出一种简单却强大的采样理论框架，并将扩散模型的优化与经典的均值偏移算法关联起来。

May, 2023

梯度下降算法在统计和计算范式中的随机微分方程渐近分析

本研究探讨随机优化中梯度下降算法（尤其是加速梯度下降和随机梯度下降）的渐近行为，并建立了渐近分析的计算和统计统一框架。基于时间依赖奥恩斯坦 - 乌伦贝克过程等建立梯度流中心极限定理，最终识别学习率、批处理大小、梯度协方差和黑塞矩阵等四个因素，以解决非凸优化问题。

Nov, 2017