Jun, 2020

深度学习大批量训练中的外推

TL;DR本文提出使用计算有效的外推方法来稳定优化轨迹,同时通过平滑避免锐减的局部最小值,从而解决了大批量训练数据下的模型精度退化问题并且在 ResNet、LSTM 和 Transformer 等模型下得到证明。