ICMLJun, 2018

利用模式连通性进行损失函数分析

TL;DR本文通过研究不同训练条件下的模型连接性,探索了通过余弦退火和重启的随机梯度下降方法对损失表面的训练轨迹的影响,通过实验证明了 SGDR 方法虽然能够跨越障碍,但是不能收敛于多个局部最小值。