利用连续时间控制和摄动理论解锁最佳批处理大小日程
本文介绍了一种采用自适应“大数据块”随机梯度下降方案的方法,以维持梯度逼近的信噪比的稳定,从而实现自动学习率选择和避免步长衰减,并且不需要目标函数凸性的限制。
Oct, 2016
本论文提出了动态批次大小自适应方法,通过估计随机梯度的方差并将批次大小调整为与目标函数成比例的方式,从而消除了先前所述的学习速率降低的需要。与相关工作不同的是,我们的算法将批次大小与学习速率相结合,直接反映了两者之间的已知关系。在流行的图像分类基准测试中,我们的批次大小自适应可以更快地优化收敛,同时简化学习速率调整。
Dec, 2016
本研究从扰动动力学系统的角度研究了SGD优化算法在非凸优化问题中的应用,发现扰动过程可以弱化地近似SGD算法,并且批量大小对于深度神经网络具有明显影响,小批量有助于SGD算法避免不稳定驻点和锐利极小值,并且我们的理论表明,为了更好的泛化能力,应在后期增加批量大小以使SGD陷入平坦的极小值点。
May, 2017
本文提出一种新方法,通过优化预期改进的线性或二次泰勒近似的下界与用于估计梯度的样本数量之间的比率来自动确定随机梯度下降方法中的批量大小,以解决梯度估计准确性和更新成本之间的折衷关系,并通过在流行的分类任务上与相关方法进行实证比较来评估其性能。
Dec, 2017
本文旨在正式解释当代机器学习中观察到的SGD快速收敛现象。我们重点观察现代学习架构是过参数化的,并且被训练用于通过将经验损失(分类和回归)驱动到接近零的插值数据。我们表明,这些插值方案允许SGD快速收敛,与全梯度下降迭代次数相当。对于凸损失函数,我们获得了与全梯度下降相似的“迷你批次”SGD的指数收敛界限。关键的迷你批次大小可以视为有效迷你批次并行化的限制,并且几乎独立于数据大小。
Dec, 2017
本文提出了一个新的分析框架来研究mini-batch SGD对于具有常数学习率、动量和批次大小的线性模型的噪声平均属性,探讨了问题的谱分布对算法的影响,并验证了使用负动量可以实现最优收敛速率的理论预测。
Jun, 2022
随机梯度下降是最简单的深度学习优化器之一,该论文通过蒙特卡洛方法对其进行了收敛性分析,并证明了使用Armijo线搜索的随机梯度下降在非凸优化中的性能优于其他深度学习优化器,同时还发现了批量大小对训练的影响,批量大小越大,需要的步数越少,但在成本和梯度计算的角度,存在一个临界批量大小最能降低成本。
Jul, 2023
利用随机梯度下降(Stochastic Gradient Descent, SGD)算法研究了在正交数据上训练具有线性或ReLU激活函数的单神经元自编码器的动力学。我们发现对于这个非凸问题,使用恒定步长的随机初始化SGD算法可以成功找到全局最小值,但具体找到的全局最小值取决于批量大小。在全批次设置中,我们发现解是稠密的(即非稀疏的),与初始化方向非常吻合,表明特征学习很少发生。另一方面,对于任何小于样本数的批量大小,SGD会找到一个稀疏且几乎正交于初始化的全局最小值,表明随机梯度的随机性在这种情况下引起了一种不同类型的“特征选择”。此外,如果通过Hessian矩阵的迹来衡量最小值的锐度,则使用全批次梯度下降找到的最小值比使用小批量大小找到的最小值更平坦,这与先前的研究相矛盾,先前的研究认为大批量会导致更锐利的最小值。为了证明SGD使用恒定步长的收敛性,我们引入了非齐次随机游走理论中的重要工具,该工具对于独立研究可能具有重要意义。
Aug, 2023
本研究解决了迷你批量随机梯度下降(SGD)在批量大小和学习率调整上的不足。通过理论分析四种不同的调度器,提出在批量增大和学习率增加的情况下,SGD可以更有效地最小化经验损失的全梯度范数。研究结果表明,这种新颖的调度方案能显著加速训练过程,提升性能。
Sep, 2024
本研究解决了小批量随机梯度下降(SGD)在批量大小和学习率设置上的不足,以减少深度神经网络训练中的经验损失。提出了四种调度器的理论分析,发现使用批量大小和学习率同时增加的调度器能够更快地减小经验损失的全梯度范数,具有显著的加速效果。
Sep, 2024