ICMLJul, 2020

AdaScale SGD:分布式训练的用户友好型算法

TL;DRAdaScale SGD 是一种可靠地适应大批量训练学习率的算法,通过不断调整梯度方差,可以实现在宽范围的批量大小下加速训练。在机器翻译,图像分类,目标检测和语音识别任务中,它可以处理大批量训练,而不会降低模型质量,因为 AdaScale 的收敛性边界可以保持最终目标值,即使批量大小增加,迭代次数减少。这个算法引入了可忽略的计算开销和没有新的超参数,因此是实现大规模训练的有吸引力的选择。