Oct, 2023

Jorge:高效 GPU 二阶最优化的近似预处理

TL;DR本文介绍了 Jorge,一种第二阶优化器,它通过省略矩阵求逆的计算,结合了第二阶方法的快速收敛性和第一阶方法的高计算效率。还提出了一种从 SGD 基准直接确定 Jorge 超参数的方法,从而显著减少调参工作。实证评估结果表明,在多个深度学习模型中,Jorge 优于 SGD、AdamW 和 Shampoo 等最先进的优化器,无论是在样本效率还是墙钟时间上。