ICLRSep, 2019

稳定性边缘:如何调整超参数以在神经网络异步训练中保留最小值选择?

TL;DR研究了异步训练是如何影响神经网络的动态稳定性,发现延迟的程度与学习率交互作用,可以改变异步随机梯度下降算法所能够访问的极小值集合,并推导出调整学习率的闭式规则,同时保持可访问集合不变。结果显示,对于高延迟值,学习率应该保持反比于延迟。并且扩展到动量,发现动量应该关闭或修改以提高训练稳定性。作者提供了经验实验来验证理论发现。