Apr, 2025

AlphaGrad:非线性梯度归一化优化器

TL;DR本研究提出了AlphaGrad,一种内存高效的条件无状态优化器,旨在解决自适应方法(如Adam)的内存开销和超参数复杂性问题。通过张量级L2梯度归一化和光滑的双曲正切变换,AlphaGrad实现了尺度不变性,显示出在不同强化学习基准(如DQN、TD3、PPO)中表现突出的潜力,尤其在有状态学习机制上展现了较高的稳定性和效率。