BriefGPT.xyz
大模型
Ask
alpha
关键词
large-scale deep learning problems
搜索结果 - 1
时间表之外的道路
不依赖于优化停止步骤 T 的现有学习率调度比依赖 T 的学习率调度性能更好。我们提出了一种完全避免使用调度的方法,同时在从凸问题到大规模深度学习问题的广泛问题范围内展示了与调度相比的最先进性能。我们的无调度方法与带有动量的标准优化器没有额外
→
PDF
a month ago
Prev
Next