Apr, 2024

AdamW 的隐式偏差: l∞范数约束优化

TL;DRAdamW 在语言建模任务中表现出优越的性能,优于具有正则化 l2 项的 Adam 算法,本文通过分析表明 AdamW 隐式地进行了约束优化。