内存高效的自适应优化
大型语言模型通常需要较大的内存来训练,但低内存优化(LOMO)技术通过引入自适应学习率以及矩阵分解等方法,降低了内存需求并与 AdamW 优化器在大语言模型上表现相当。
Oct, 2023
该论文提出了一种基于行和列之和的移动平均数的方法,用于估计神经网络权重矩阵的参数,并解决了自适应方法在更新时产生的过大更新的问题。该方法能够在很少的辅助存储空间中达到与 Adam 默认规则相当的结果。
Apr, 2018
本文研究了使用自适应优化方法训练深度神经网络的表现,提出了一些简单超参数问题,发现自适应方法得到的结果往往比梯度下降方法差,甚至可能导致结果更糟糕,建议实践者重新考虑使用自适应方法训练神经网络。
May, 2017
提出了一种新的 Adam 的记忆增强版本,通过在训练过程中使用关键动量项的缓冲区,推动探索更平坦的最小值,从而提高了标准监督语言建模和图像分类任务的性能。
Jul, 2023
本文尝试缩小理论优化与实际优化之间的差距,提出了一种可扩展的二阶预处理方法来优化深度模型,利用异构硬件架构进行训练,相比于常规一阶方法在机器翻译、语言建模、点击率预测和图像分类等任务中表现出优异的性能。
Feb, 2020
该研究提出了 BAdam,一种利用 Adam 作为内部求解器的块坐标优化框架的优化器。BAdam 提供了一种内存高效的方法,用于对大型语言模型进行完全参数微调,通过链式规则属性减少了后向过程的运行时间。实验结果表明,BAdam 在比较 LoRA 和 LOMO 时表现出优越的收敛行为。此外,我们通过对 MT-bench 的下游性能评估来评估经过指导调整的模型,结果表明 BAdam 略优于 LoRA,并且在 LOMO 方面表现更好。最后,我们将 BAdam 与 Adam 在一个中等规模任务上进行了比较,即在 SuperGLUE 基准测试中对 RoBERTa-large 进行微调,结果表明 BAdam 能够缩小与 Adam 之间的性能差距。
Apr, 2024
传统优化方法依赖于使用单精度浮点算术,在内存大小和计算性能方面具有成本。然而,混合精度优化技术利用单精度和半精度浮点算术来降低内存需求,同时保持模型准确性。我们在训练模型期间提供了一种算法,通过摆脱参数的浮点副本,实际上只保留半精度数,进一步减少内存使用。我们还通过在反向传播期间执行优化器步骤来探索去除梯度值的好处。在实践中,我们实现了高达 25% 的峰值内存使用降低和 15% 的更快训练速度,同时保持相同水平的准确性。
Sep, 2023
通过引入线性草图的压缩辅助变量方法,可以在减小成本的情况下,实现与原算法相同的性能,这在大规模深度学习模型的训练中具有潜在的应用价值。
Feb, 2019
引入了 MADGRAD 优化方法,其表现优异,不仅适用于视觉领域中的分类和图像转换任务,还适用于自然语言处理中的循环和双向掩蔽模型。在每个任务中,MADGRAD 的测试结果均优于 SGD 和 ADAM,并且在自适应方法通常表现差的问题上也表现出色。
Jan, 2021