Jun, 2023

MKOR: 基于动量的 Kronecker 因子优化器,采用 Rank-1 更新

TL;DR提出了一种基于动量和 Krondcker 分解的因子为基础的优化器 MKOR 可以改善深度神经网络(DNN)的训练时间和收敛性能,通过提高二阶信息的更新频率和减少通信复杂度,MKOR 可以在处理大型语言模型时较好地适用,其表现超过了最先进的一阶和二阶优化器,且在 64GPU 上对 BERT-Large-Uncased 的性能提升了 2.57x 和 1.85x。