Jun, 2023

SGD中的投石机现象:训练损失中的尖峰及其对通过特征学习的泛化能力的影响

TL;DR本文介绍了神经网络训练中出现巨大损失峰值现象的解释及其产生的优良泛化效果,它们通过在真实预测器的平均梯度外积上对特征学习的对齐来提高测试性能,并提供了一种方法来促进在 SGD 中找到更多的捕捉机制。