BriefGPT.xyz
Ask
alpha
关键词
initial lr ranges
搜索结果 - 1
大学习率提高泛化性能:我们所讨论的是多大的学习率?
基于最近的研究建议使用较大的学习率(LRs)来进行神经网络训练以获得最佳泛化效果,我们详细研究了这一假设,并明确了提供后续小学习率或权重平均训练的最佳结果的初始 LR 范围,发现这些范围实际上比通常假设的范围显著窄,我们在一个简化的设置中进
→
PDF
8 months ago
Prev
Next