研究发现,针对机器学习中许多问题,大多数采用随机梯度下降算法,并能够在实践中实现最佳结果,但通常无法达到全局最小值,其实际效果至今仍是一个谜,本文研究了参数推断和统计物理中的自由能最小化之间的对应关系,证明了宽而浅的极小值在系统欠采样时是最优的,同时还显示该算法的随机性具有非平凡的相关结构,会使其有偏地偏向于宽的极小值。
Mar, 2018
通过导出稳态波动耗散关系,我们证明了与随机梯度下降算法中的可测量量和超参数相关的关系,并使用这些关系来自适应地设置训练计划并高效提取丢失函数景观的信息,其可以准确地反映其海森矩阵和各向异性度量的幅度,实验证明了我们的说法。
Sep, 2018
通过使用动力学均场理论的方法,我们分析了随机梯度下降在单层神经网络分类高维高斯混合数据上的学习动态。我们通过定义一种随机过程将随机梯度下降扩展到连续时间极限,称之为随机梯度流,并探讨了算法控制参数对其在损失函数空间中的导航的影响。
Jun, 2020
本文研究嘈杂迭代算法对机器学习模型泛化性能的影响,并通过与通信和信息理论中发现的加性噪声通道的联系推导出分布相关的泛化上限,得出了对几种应用的见解,包括差分隐私随机梯度下降(DP-SGD)、联邦学习和随机梯度 Langevin 动力学(SGLD)。我们通过数字实验演示了我们的边界,表明它们可以帮助理解神经网络泛化现象的最新经验观察。
Feb, 2021
研究SGD训练的深度神经网络在性能收敛后的步长限制动态,揭示了优化超参数、梯度噪声结构及训练结束时Hessian矩阵之间错综复杂的相互作用,通过统计物理学的视角解释这种异常扩散现象并在ImageNet数据集的ResNet-18模型上得到了实证验证。
Jul, 2021
通过采用统计力学的方法,我们研究一个超参数全连接的神经网络分类任务的优化过程,发现该过程与热力学中的温度有类似的波动统计,确定了低误差区域为低维流形,且该维度由决策边界的附近数据点的数量控制,并解释了在高温下主要采样弯曲程度较大的地区的原因。
Apr, 2023
本研究揭示了SGD存在的强烈隐式偏差,由此驱使过度表达的神经网络倾向于变得更简单,从而显著减少独立参数数量,并改进了泛化能力。
Jun, 2023
随机梯度下降(SGD)算法是用于训练神经网络的算法。在这项工作中,我们证明了SGD的小批量噪声在有缩放对称性的损失函数中使解决方案朝着均衡解决方案正则化。我们应用这一结果来推导具有任意深度和宽度的对角线线性网络的随机梯度流的稳态分布,该稳态分布展示了相变、破坏性遍历和涨落反转等复杂的非线性现象,这些现象只存在于深度网络中,暗示着深度模型与浅模型之间的根本差异。
Aug, 2023
我们研究了使用随机梯度朗之万动力学(SGLD)进行非凸优化的问题。我们采用了一种基于李雅普诺夫势函数和优化的新策略来分析SGLD收敛到全局最小值的情况,将以前关于SGLD的轻微条件转化为基于李雅普诺夫势函数的几何属性。我们提供了在以前研究SGLD进行优化的设置中的改进速度,SGLD的第一个有界梯度复杂性保证以及连续时间朗之万动力学在满足一些适度正则性假设时,离散时间SGLD也能成功的证明。
Jul, 2024
本研究解决了如何利用Langevin动态从高维分布中进行采样的问题,特别是在优化初始情况下。我们提出了一种新方法,证明在适当的低温条件下,可以用Langevin动态进行有效的采样。研究结果显示,这一方法能够处理多种新的非对数凹分布,为相关领域提供了重要的理论支持。
Oct, 2024