Dec, 2023

温度平衡、逐层权重分析与神经网络训练

TL;DR该论文提出了 TempBalance,一种简单而有效的逐层学习率方法,基于 Heavy-Tailed Self-Regularization (HT-SR) 理论,并展示了使用 HT-SR 相关指标来指导模型训练中的温度调度和平衡,从而改善在测试中的性能。实验证明 TempBalance 显著优于普通的 SGD 和经过精心调节的谱范数正则化,同时也超过了一些最先进的优化器和学习率调度器。