Mar, 2024

Adapprox:通过随机低秩矩阵在 Adam 优化中进行自适应逼近

TL;DRAdapprox 是一种使用随机低秩矩阵近似来更有效准确地近似 Adam 的二次矩的新方法,在 GPT-2 训练和下游任务中,Adapprox 相比 AdamW 能够实现 34.5%到 49.9%和 33.8%到 49.9%的内存节省,并且它通过提高收敛速度和改进下游任务性能相对于其他方法。