Nov, 2023

大学习率提高泛化性能:我们所讨论的是多大的学习率?

TL;DR基于最近的研究建议使用较大的学习率(LRs)来进行神经网络训练以获得最佳泛化效果,我们详细研究了这一假设,并明确了提供后续小学习率或权重平均训练的最佳结果的初始 LR 范围,发现这些范围实际上比通常假设的范围显著窄,我们在一个简化的设置中进行主要实验以精确控制学习率超参数,并在更实际的环境中验证了我们的关键发现。