BriefGPT.xyz
Feb, 2025
优化算法中的记忆如何隐式修改损失
How Memory in Optimization Algorithms Implicitly Modifies the Loss
HTML
PDF
Matias D. Cattaneo, Boris Shigida
TL;DR
本研究解决了深度学习优化方法中,历史迭代对更新的影响及其衰减的问题。我们提出了一种识别无记忆算法的新方法,通过替换更新中的所有过去迭代为当前迭代,并添加基于记忆的修正项,从而揭示了记忆如何隐式影响优化动态。研究发现,Lion算法缺乏AdamW所具有的隐式反正则化特性,提供了Lion更好泛化性能的理论依据。
Abstract
In modern optimization methods used in
Deep Learning
, each update depends on the history of previous iterations, often referred to as
Memory
, and this dependence decays fast as the iterates go further into the pa
→