利用连续时间控制和摄动理论解锁最佳批处理大小日程
本论文提出了动态批次大小自适应方法,通过估计随机梯度的方差并将批次大小调整为与目标函数成比例的方式,从而消除了先前所述的学习速率降低的需要。与相关工作不同的是,我们的算法将批次大小与学习速率相结合,直接反映了两者之间的已知关系。在流行的图像分类基准测试中,我们的批次大小自适应可以更快地优化收敛,同时简化学习速率调整。
Dec, 2016
通过对教师 - 学生感知器分类模型的研究,我们在 B-η 平面上获得了一个相图,分为三个动力学相:(i) 由温度控制的噪声主导的 SGD,(ii) 由大步长主导的 SGD 和 (iii) GD,这些不同相还对应着不同的泛化误差区域。有趣的是,我们的分析揭示了将相 (i) 和相 (ii) 分隔开的批次大小 B * 与训练集大小 P 呈比例,其中的指数表征了分类问题的难度。
Sep, 2023
本文介绍了一种采用自适应 “大数据块” 随机梯度下降方案的方法,以维持梯度逼近的信噪比的稳定,从而实现自动学习率选择和避免步长衰减,并且不需要目标函数凸性的限制。
Oct, 2016
本文提出一种新方法,通过优化预期改进的线性或二次泰勒近似的下界与用于估计梯度的样本数量之间的比率来自动确定随机梯度下降方法中的批量大小,以解决梯度估计准确性和更新成本之间的折衷关系,并通过在流行的分类任务上与相关方法进行实证比较来评估其性能。
Dec, 2017
通过研究在具有各向同性协变量的多指标目标函数上使用一遍随机梯度下降法(SGD)训练两层神经网络的迭代时间和批次大小之间的影响,我们揭示了最佳批次大小对于缩短迭代时间的优化函数,同时不改变总样本复杂性,并通过 “相关损失 SGD” 来克服此基本限制。
Jun, 2024
本研究从扰动动力学系统的角度研究了 SGD 优化算法在非凸优化问题中的应用,发现扰动过程可以弱化地近似 SGD 算法,并且批量大小对于深度神经网络具有明显影响,小批量有助于 SGD 算法避免不稳定驻点和锐利极小值,并且我们的理论表明,为了更好的泛化能力,应在后期增加批量大小以使 SGD 陷入平坦的极小值点。
May, 2017
研究增加小批量大小以减少神经网络训练时间所面临的挑战,并通过广泛的经验分析得出,增加批量大小超过一定点对于训练或测试损失的收敛时间没有减少,而这一点通常低于当前系统的容量,说明常用的大批量优化训练策略在无法充分利用所有可用的计算资源之前就会失败。
Nov, 2018
本文提出了一种基于 Ray 框架的新型自适应批量大小框架,以及一种使用二阶方法和对抗训练的新型自适应批量大小训练方案,该方法在多个神经网络和数据集上均实现了比现有解决方案更好的效果。
Oct, 2018
我们研究了随机梯度下降在超参数化深度神经网络的损失面上如何导航,发现学习率和批量大小在深度神经网络优化和泛化中具有不同的作用,并且 ' 在高度上在墙之间弹跳 ' 机制对于泛化至关重要。
Feb, 2018
研究机器学习中的二个核心问题 —— 如何预测最小值是否能推广到测试集,以及为什么随机梯度下降找到的最小值能很好地推广;探讨了小批量大小影响参数朝向大证据最小值的作用;当学习速率固定时,建议选择使测试集准确性最大化的最佳批次大小。
Oct, 2017