Feb, 2025

优化算法中的记忆如何隐式修改损失

TL;DR本研究解决了深度学习优化方法中,历史迭代对更新的影响及其衰减的问题。我们提出了一种识别无记忆算法的新方法,通过替换更新中的所有过去迭代为当前迭代,并添加基于记忆的修正项,从而揭示了记忆如何隐式影响优化动态。研究发现,Lion算法缺乏AdamW所具有的隐式反正则化特性,提供了Lion更好泛化性能的理论依据。