MKOR: 基于动量的 Kronecker 因子优化器，采用 Rank-1 更新

Jun, 2023

MKOR: 基于动量的 Kronecker 因子优化器，采用 Rank-1 更新

MKOR: Momentum-Enabled Kronecker-Factor-Based Optimizer Using Rank-1 Updates

Mohammad Mozaffari, Sikan Li, Zhao Zhang, Maryam Mehri Dehnavi

TL;DR提出了一种基于动量和 Krondcker 分解的因子为基础的优化器 MKOR 可以改善深度神经网络（DNN）的训练时间和收敛性能，通过提高二阶信息的更新频率和减少通信复杂度，MKOR 可以在处理大型语言模型时较好地适用，其表现超过了最先进的一阶和二阶优化器，且在 64GPU 上对 BERT-Large-Uncased 的性能提升了 2.57x 和 1.85x。

Abstract

This work proposes a Momentum-Enabled Kronecker-Factor-Based optimizer Using Rank-1 updates, called mkor, that improves the training time and con

mkor deep neural networks optimizer second-order methods convergence

发现论文，激发创造

神经元上的梯度下降及其与近似二阶优化的联系

本文挑战了广泛持有的信念，发现由于其近似，Kronecker-Factored 是不与二阶更新密切相关的，并且在计算代价和数据效率方面往往优于此类更新算法，同时提出证据表明 KFAC 逼近第一阶算法（对神经元进行梯度下降），而非权重，为令人惊讶的结果。

Jan, 2022

自然梯度的痕迹限制克罗内克 - 分解近似

本文提出了一种新的用于训练深度神经网络的二阶优化方法，叫做 TKFAC（Trace-restricted Kronecker-factored Approximate Curvature），其包括对 Fisher 信息矩阵的逼近和新的阻尼技术，在实验中表现优异。

Nov, 2020

MoRA: 参数高效微调的高阶更新

为了解决使用低秩更新机制限制了大型语言模型学习和记忆新知识的问题，本文提出了一种名为 MoRA 的新方法，通过引入相应的非参数操作来降低输入维度并增加输出维度，从而实现了高秩更新，同时保持了可训练参数的数量，并在五个任务中对该方法进行了全面评估，结果显示我们的方法在占用内存的任务上表现优于 LoRA，并在其他任务上达到了可比较的性能。

May, 2024

基于 Kronecker-Factored 近似曲率的大规模分布式二阶优化在深度卷积神经网络中的应用

本文提出了使用次优化方法的替代方法，以解决深度神经网络的大规模分布式训练中可能出现的泛化差距问题，同时在基准测试中，我们的方法能够在更短的迭代次数内，就实现与一阶方法相当的泛化能力，并能够处理更大的 mini-batch。

Nov, 2018

深度学习可扩展的二阶优化

本文尝试缩小理论优化与实际优化之间的差距，提出了一种可扩展的二阶预处理方法来优化深度模型，利用异构硬件架构进行训练，相比于常规一阶方法在机器翻译、语言建模、点击率预测和图像分类等任务中表现出优异的性能。

Feb, 2020

线性时间内的机器学习二阶随机优化

本文提出了一种可以匹配第一阶段方法迭代成本的机器学习优化问题的二阶随机方法，具有线性时间实现的稀疏输入数据。

Feb, 2016

用二阶镜头看 Adam

将基于梯度的一阶方法和基于曲率的二阶方法相结合的 AdamQLR 优化器在回归和分类任务中进行评估，以实现与运行时竞争性的广义性能。

Oct, 2023

卷积层 Kronecker 分解近似 Fisher 矩阵

本文提出了基于结构化概率模型的 KFC 来近似求解卷积网络的 Fisher 矩阵，采用 Kronecker deomposition 来使得每个块都是小矩阵，从而实现更快的求逆和更高效的训练。实验表明，KFC 能够比 SGD 更快的训练卷积网络，具有在分布式环境中应用的潜力。

Feb, 2016

在克罗内克分解的特征基上进行快速近似自然梯度下降

本研究提出了一种基于 Kronecker 分解的特殊的对角方差近似算法，可以提高多层神经网络的优化速度。

Jun, 2018

结构化逆快速自然梯度：大型神经网络的内存高效和数值稳定 KFAC

用结构化的无逆自然梯度下降方法（SINGD）解决了 KFAC 方法在低精度训练中的内存低效和数值不稳定的问题，并在大型神经网络上表现出很好的性能，甚至在半精度上常常优于 AdamW。

Dec, 2023