ICLRSep, 2018

随机梯度下降的涨落 - 耗散关系

TL;DR通过导出稳态波动耗散关系,我们证明了与随机梯度下降算法中的可测量量和超参数相关的关系,并使用这些关系来自适应地设置训练计划并高效提取丢失函数景观的信息,其可以准确地反映其海森矩阵和各向异性度量的幅度,实验证明了我们的说法。