ICLRAug, 2023

Eva: 二阶优化的通用向量化近似框架

TL;DR我们提出了一种记忆和时间高效的二阶算法 Eva,通过使用小批量训练数据的 Kronecker 因式分解构建二阶信息以减少内存消耗,并使用 Sherman-Morrison 公式推导出高效的更新公式,将 Eva 扩展为通用的向量化近似框架以提高现有二阶算法(FOOF 和 Shampoo)的计算和内存效率。在不影响收敛性能的情况下,对不同模型和数据集进行的广泛实验结果表明,与一阶 SGD 和二阶算法(K-FAC 和 Shampoo)相比,Eva 可将端到端训练时间减少 2.05 倍和 2.42 倍。