研究表明在拥有相同迭代次数的情况下,小或适中大小的 batch 在测试集上比非常大的 batch 具有更好的表现,同时研究如何随着预算增长而改变最佳学习率计划,并提供一个基于随机微分方程的 SGD 动态的理论解释。
Jun, 2020
本文提出了一种名为 'noise enhancement' 的方法,可有效控制随机梯度下降中的噪声,进而提高训练的泛化性能,实验证明,其比小批量训练的效果更佳。
Sep, 2020
研究过参数化模型,标签噪音等对随机梯度下降中的正则化作用及其影响。
Jun, 2021
在超参数化的情况下研究了一类噪声梯度下降系统的极限动力学。研究发现,噪声的结构不仅影响极限过程的形式,还影响演化的时间尺度。应用该理论比较了 Dropout、标签噪声和经典 SGD(小批量)噪声的演化过程,发现它们在不同的两个时间尺度上演化。这些研究结果受到神经网络训练的启发,但定理适用于任何具有非平凡零损失集的噪声梯度下降。
Apr, 2024
本文探究了随机梯度下降(SGD)及其变种在非消失学习率模式下的基本性质,特别是推导了离散时间 SGD 在二次损失函数中的稳态分布,讨论了其影响,并考虑了 SGD 变体的逼近误差、小批量噪音效应、最优贝叶斯推断、从尖锐最小值的逃逸率和几种包括阻尼牛顿法、自然梯度下降和 Adam 的二阶方法的稳态协方差等应用。
Dec, 2020
本研究探讨了梯度噪声在深度学习中的正则化作用,发现除了随机梯度下降噪声外,其他类型的噪声也能有效地进行梯度下降的正则化。同时该研究提出了一种噪声下降的算法,能够拓展噪声的选择,有利于大批量 SGD 训练,同时也不会影响泛化性能。
Jun, 2019
随机梯度下降(SGD)算法是用于训练神经网络的算法。在这项工作中,我们证明了 SGD 的小批量噪声在有缩放对称性的损失函数中使解决方案朝着均衡解决方案正则化。我们应用这一结果来推导具有任意深度和宽度的对角线线性网络的随机梯度流的稳态分布,该稳态分布展示了相变、破坏性遍历和涨落反转等复杂的非线性现象,这些现象只存在于深度网络中,暗示着深度模型与浅模型之间的根本差异。
Aug, 2023
研究机器学习中的二个核心问题 —— 如何预测最小值是否能推广到测试集,以及为什么随机梯度下降找到的最小值能很好地推广;探讨了小批量大小影响参数朝向大证据最小值的作用;当学习速率固定时,建议选择使测试集准确性最大化的最佳批次大小。
Oct, 2017
本文研究了神经网络训练中随机梯度噪声向量的分布,发现对于批量大小为 256 或以上的数据集和架构选择,分布最好可以用高斯分布来描述,解释了随机梯度下降在神经网络训练中比梯度下降更具普适性的原因。
Oct, 2019
通过对图像和语言数据的广泛实证分析,我们表明在在线学习中,大的学习速率和小的批次大小并不能为 SGD 带来任何隐式偏差优势。
Jun, 2023