BriefGPT.xyz
大模型
Ask
alpha
关键词
decoupled weight decay
搜索结果 - 2
AdamW 的隐式偏差: l∞范数约束优化
AdamW 在语言建模任务中表现出优越的性能,优于具有正则化 l2 项的 Adam 算法,本文通过分析表明 AdamW 隐式地进行了约束优化。
PDF
3 months ago
狮子暗中解决约束优化:正如李亚普诺夫所预测的
Lion 是一种优化器模型,通过程序搜索发现,它在训练大型 AI 模型上展示了有希望的结果,在内存效率上与 AdamW 相当或更好。通过连续时间和离散时间分析,我们证明了 Lion 在最小化一般损失函数并强制执行边界约束时是理论上新颖和有原
→
PDF
9 months ago
Prev
Next