BriefGPT.xyz
大模型
Ask
alpha
关键词
adamw
搜索结果 - 5
如何随着模型和数据集的规模调整 AdamW 的权重衰减
AdamW 算法中的权重可以理解为近期更新的指数移动平均 (EMA),通过 EMA 时间尺度选择合适的权重衰减,以确保权重衰减与模型和数据集的规模相匹配,并得出 EMA 时间尺度的合理取值范围。
PDF
a month ago
AdamW 的隐式偏差: l∞范数约束优化
AdamW 在语言建模任务中表现出优越的性能,优于具有正则化 l2 项的 Adam 算法,本文通过分析表明 AdamW 隐式地进行了约束优化。
PDF
3 months ago
权重规范控制
解耦权重衰减规则是权重范数控制的一种特例,任何使用解耦权重衰减规则(如 AdamW)的优化方法都可以看作是具有权重范数控制的更一般算法的一种特例。我们认为将目标权重范数设为 0 可能不是最优的,可以考虑其他目标范数值。例如,任何 AdamW
→
PDF
7 months ago
如何使用 SGD 微调视觉模型
比较了在视觉 Transformer 和 ConvNeXt 模型微调时,SGD 和 AdamW 两种最常用的优化器的表现,发现当微调梯度在第一个 embedding 层中远大于其余模型时,使用 AdamW 可以比 SGD 取得更好的表现,但
→
PDF
2 years ago
Ranger21:一种协同深度学习优化器
介绍了一种新的优化器,Ranger21,它结合了 AdamW 和八个组件,能够提供显著的验证准确性和训练速度的提高,并且能够顺利地训练 ResNet50。
PDF
3 years ago
Prev
Next