随机梯度下降中影响最小值的三个因素
研究机器学习中的二个核心问题 —— 如何预测最小值是否能推广到测试集,以及为什么随机梯度下降找到的最小值能很好地推广;探讨了小批量大小影响参数朝向大证据最小值的作用;当学习速率固定时,建议选择使测试集准确性最大化的最佳批次大小。
Oct, 2017
通过实验证明大批量随机梯度下降法容易陷入训练和测试函数的尖峰最小值,从而导致模型泛化能力下降,而小批量方法表现更好,这可能是由于梯度估计中的固有噪声引起的,可以采用多种策略来帮助大批量方法消除这种泛化差距。
Sep, 2016
分析随机梯度下降中,小批量抽样引起的噪声和波动,揭示了大学习率可以通过引入隐含的正则化来帮助泛化的内在规律,并且可以提供一种理解随机梯度下降离散时序性对其功率规律现象的影响。
Feb, 2021
使用较小的学习率和 SGD 最陡峭的方向进行训练可以提高模型的训练速度和泛化能力,而较大的学习率或较小的批量大小将导致 SGD 进入更宽的区域。
Jul, 2018
本论文提出了动态批次大小自适应方法,通过估计随机梯度的方差并将批次大小调整为与目标函数成比例的方式,从而消除了先前所述的学习速率降低的需要。与相关工作不同的是,我们的算法将批次大小与学习速率相结合,直接反映了两者之间的已知关系。在流行的图像分类基准测试中,我们的批次大小自适应可以更快地优化收敛,同时简化学习速率调整。
Dec, 2016
我们研究了随机梯度下降在超参数化深度神经网络的损失面上如何导航,发现学习率和批量大小在深度神经网络优化和泛化中具有不同的作用,并且 ' 在高度上在墙之间弹跳 ' 机制对于泛化至关重要。
Feb, 2018
研究表明在拥有相同迭代次数的情况下,小或适中大小的 batch 在测试集上比非常大的 batch 具有更好的表现,同时研究如何随着预算增长而改变最佳学习率计划,并提供一个基于随机微分方程的 SGD 动态的理论解释。
Jun, 2020
使用密度扩散理论(DDT),我们首次理论上和实证上证明,SGD 比 GD 更有利于发现平坦极值点,同时表明了使用大批量训练来搜索平坦极值点需要指数级时间。
Feb, 2020
本文结合实验和理论,对深度卷积网络的随机梯度下降进行了优化,并提出了一种新的猜想,即 SGD 会在概率上集中于大体积的 “平坦” 极小值,选择刚好也是全局最小值的 “平坦” 极小值。
Jan, 2018
本文探讨了随机梯度下降在神经网络早期训练阶段中的超参数,指出通过在初期采用大学习率可以减小梯度的方差和提高梯度的协方差矩阵的条件数,在超过 “盈亏平衡点” 之后,通过随机梯度下降法优化可以隐式地正则化损失曲面的曲率以及梯度中的噪声等问题,这对于神经网络的优化效果具有积极作用,研究这些影响对于泛化性能的影响是一个有前途的研究方向。
Feb, 2020