initial lr ranges | BriefGPT

关键词initial lr ranges

搜索结果 - 1

大学习率提高泛化性能：我们所讨论的是多大的学习率？
基于最近的研究建议使用较大的学习率（LRs）来进行神经网络训练以获得最佳泛化效果，我们详细研究了这一假设，并明确了提供后续小学习率或权重平均训练的最佳结果的初始 LR 范围，发现这些范围实际上比通常假设的范围显著窄，我们在一个简化的设置中进
PDF8 months ago