Oct, 2021

深度学习训练不稳定性的损失曲率视角

TL;DR本论文探究了损失海森矩阵在多项分类任务中的演化,以了解损失曲率对训练动态的影响。结果表明,成功的模型和超参数选择能够使早期的优化轨迹避免或穿越高曲率区域并进入扁平区域,提高学习率稳定性,类似于各种训练不稳定性缓解策略最终解决神经网络优化的相同失效模式,即差的条件。