随机微分方程模型化 SGD 的有效性

Feb, 2021

随机微分方程模型化 SGD 的有效性

On the Validity of Modeling SGD with Stochastic Differential Equations (SDEs)

Zhiyuan Li, Sadhika Malladi, Sanjeev Arora

TL;DR通过实验和理论分析，本文揭示了有限 LR 的 SGD（随机梯度下降）可以用 Ito 随机微分方程近似，且该近似可以捕捉常见深度神经网络的训练和泛化特性，提出了线性缩放规则的必要条件。

Abstract

It is generally recognized that finite learning rate (LR), in contrast to infinitesimal LR, is important for good generalization in real-life deep nets. Most attempted explanations propose approximating finite-LR sgd

finite learning rate sgd ito sde approximation training and generalization properties linear scaling rule

发现论文，激发创造

最小二乘随机梯度下降的随机微分方程模型

我们研究了最小二乘问题的连续时间随机梯度下降（SGD）模型的动力学。我们通过分析随机微分方程 (SDE)，在训练损失（有限样本）或总体损失（在线设置）的情况下建模 SGD 来追求 Li 等人 (2019) 的研究成果。该动力学的一个关键特征是无论样本大小如何，都存在与数据完美插值器。在这两种情况下，我们提供了收敛到（可能退化的）稳态分布的精确非渐近速率。此外，我们描述了渐近分布，给出了其均值、与之偏差的估计，并证明了与步长大小有关的重尾现象的出现。我们还呈现了支持我们发现的数值模拟结果。

Jul, 2024

本地 SGD 何时、为何比 SGD 泛化性更好？

本文基于随机微分方程（SDE）模型解释了为什么（和何时）局部 SGD 具有更好的泛化性能，并证实具有较小的学习率和足够长的训练时间是取得泛化性能提升的必要条件。

Mar, 2023

神经随机微分方程作为无限维生成对抗网络

本文介绍了一种将传统经典方法与神经随机微分方程（SDEs）相结合的方法，作为连续生成时间序列模型，无需预设统计或密度功能即可适应任意漂移和扩散，其输入噪声为布朗运动，输出样本是由数值求解器产生的，可用于机器学习中的时间序列建模。

Feb, 2021

极小化极大优化的 SDEs

利用随机微分方程分析和比较最小化最大化优化器的 SDE 模型，揭示超参数、隐式正则化和隐含的曲率诱导噪声之间的相互作用，并以简化的设定推导出收敛条件和闭式解，进一步揭示不同优化器行为的见解。

Feb, 2024

基于鲁棒的随机微分方程变分公式的深度学习求解线性偏微分方程

该研究探讨了利用 Monte Carlo 方法和深度学习解决高维偏微分方程（PDE）的有效算法，并提供了一些新方法，这些方法在利用梯度优化方法最小化相应损失时具有低差异性，并提高了所提到的现有深度学习方法的性能。

Jun, 2022

高维笔记的一击：GLM 和多指标模型上 SGD 学习动力学的 ODE

该研究分析了应用于广义线性模型和多索引模型（例如逻辑回归，相位恢复）以及具有一般数据协方差的流式随机梯度下降（SGD）的高维极限动力学。通过引入常微分方程系统，该研究展示了 SGD 的确定性等效性，并得到了 SGD 稳定性和收敛性的学习速率阈值。此外，该研究还介绍了一个具有简化扩散系数的随机微分方程（均匀化 SGD），用于分析 SGD 迭代的一般统计动态，并通过数值模拟实例和理论进行了对比验证。

Aug, 2023

将现代深度学习与传统优化分析调和：内在学习速率

本研究通过建立适当的随机微分方程、分析训练轨迹和实验，提出了深度学习中标准化网络的行为远离传统视角的其他方面，并发现了基于 “内部学习率” 的参数，控制了学习的速度和均衡，在深度学习优化和泛化方面具有新的挑战和实验结论，这些结果对于深度学习中的规范化技术具有丰富的理论和实践意义。

Oct, 2020

随机梯度算法的变分分析

本文介绍如何将随机梯度下降算法与调整参数应用于概率建模中的近似后验推断，通过最小化数据生成分布与目标后验分布之间的 KL 散度作为理论框架，让 SGD 有效地作为贝叶斯推断的一种方法，发现其可以成为概率模型优化超参数的一种新途径。

Feb, 2016

如何从三分钟数据中学习和泛化：物理约束和不确定性感知的神经随机微分方程

本文提出了一种使用神经随机微分方程学习控制动力学模型的框架和算法，能够构建模型预测控制算法以及模型基的增强学习领域中的仿真器，在模拟机器人系统中得到良好的应用。

Jun, 2023

深度学习求解 Kolmogorov PDE

本文提出一种针对 Kolmogorov PDEs 的数值逼近方法，旨在克服高维情况下维数诅咒和变量精确性缺乏的问题，且适用于金融衍生品的定价模型。在研究的示例中包括热方程、Black-Scholes 模型、随机 Lorenz 方程和 Heston 模型，实现了高维情况下准确性和速度方面的有效逼近。

Jun, 2018