机器学习的平衡状态内外
随机梯度下降(SGD)算法是用于训练神经网络的算法。在这项工作中,我们证明了 SGD 的小批量噪声在有缩放对称性的损失函数中使解决方案朝着均衡解决方案正则化。我们应用这一结果来推导具有任意深度和宽度的对角线线性网络的随机梯度流的稳态分布,该稳态分布展示了相变、破坏性遍历和涨落反转等复杂的非线性现象,这些现象只存在于深度网络中,暗示着深度模型与浅模型之间的根本差异。
Aug, 2023
通过导出稳态波动耗散关系,我们证明了与随机梯度下降算法中的可测量量和超参数相关的关系,并使用这些关系来自适应地设置训练计划并高效提取丢失函数景观的信息,其可以准确地反映其海森矩阵和各向异性度量的幅度,实验证明了我们的说法。
Sep, 2018
通过 replica formalism,研究了具有可微激活函数和单个线性输出单元的大型分层神经网络的平衡状态。在学习完全匹配复杂度规则的非常多的隐藏单元的学生网络的基础上,计算了定量的冻结自由能,发现系统在训练集的临界大小下从不专业化到专业化的学生配置的一级相变。通过固定的训练集进行随机梯度下降的计算机模拟表明,平衡结果在实际训练过程中的平台状态中得到了定量描述。
Dec, 1998
本文探究了随机梯度下降(SGD)及其变种在非消失学习率模式下的基本性质,特别是推导了离散时间 SGD 在二次损失函数中的稳态分布,讨论了其影响,并考虑了 SGD 变体的逼近误差、小批量噪音效应、最优贝叶斯推断、从尖锐最小值的逃逸率和几种包括阻尼牛顿法、自然梯度下降和 Adam 的二阶方法的稳态协方差等应用。
Dec, 2020
在机器学习中,使用贝叶斯后验概率分布作为模型参数可以避免过度拟合,Stochastic gradient Langevin dynamics (SGLD) 是一种近似贝叶斯后验概率分布的算法,使用易于计算的 Fisher 矩阵近似,使用 Fisher 矩阵预处理可以用于大型神经网络中,并将 SGLD 与 dropout 类似的正则化技术相结合以减少过拟合。
Dec, 2017
研究 SGD 训练的深度神经网络在性能收敛后的步长限制动态,揭示了优化超参数、梯度噪声结构及训练结束时 Hessian 矩阵之间错综复杂的相互作用,通过统计物理学的视角解释这种异常扩散现象并在 ImageNet 数据集的 ResNet-18 模型上得到了实证验证。
Jul, 2021
使用具有随机学习率的随机梯度下降(SGD)的一种变种,研究了其收敛性质,并证明了该方法通过弱假设下的参数更新得到一个稳定分布,从而在非凸优化问题中找到全局最小值,同时评估了泛化误差。
Jun, 2024
Stochastic Gradient Descent (SGD) 和 Glauber dynamics 在离散优化和推理问题中的动力学非常相似,其等价性使得我们能够使用 Monte Carlo 算法的结果来优化 SGD 类似算法中的 mini-batch 大小,从而在难解推理问题中提高信号恢复的效率。
Sep, 2023
通过使用动力学均场理论的方法,我们分析了随机梯度下降在单层神经网络分类高维高斯混合数据上的学习动态。我们通过定义一种随机过程将随机梯度下降扩展到连续时间极限,称之为随机梯度流,并探讨了算法控制参数对其在损失函数空间中的导航的影响。
Jun, 2020
本文介绍如何将随机梯度下降算法与调整参数应用于概率建模中的近似后验推断,通过最小化数据生成分布与目标后验分布之间的 KL 散度作为理论框架,让 SGD 有效地作为贝叶斯推断的一种方法,发现其可以成为概率模型优化超参数的一种新途径。
Feb, 2016