CAME：基于置信度的自适应内存高效优化

ACLJul, 2023

CAME：基于置信度的自适应内存高效优化

CAME: Confidence-guided Adaptive Memory Efficient Optimization

Yang Luo, Xiaozhe Ren, Zangwei Zheng, Zhuo Jiang, Xin Jiang...

TL;DR本研究提出了一种同时具有传统自适应方法快速收敛和内存高效方法的名为 CAME 的优化器，实验证明它在 NLP 任务中很稳定并具有更高的性能。

Abstract

adaptive gradient methods, such as Adam and LAMB, have demonstrated excellent performance in the training of large language models. Nevertheless, the need for adaptivity requires maintaining second-moment estimates of the per-parameter gradients, which entails a high cost of extra memo

adaptive gradient methods memory-efficient optimizers came training stability nlp tasks

发现论文，激发创造

内存高效的自适应优化

本文介绍了一种效率高、灵活性强、内存占用少的自适应优化方法，保留了每个参数的自适应性优势，同时允许使用更大的模型和批量大小，具有很好的收敛性和训练效果。

Jan, 2019

MicroAdam：精确的自适应优化方法，低空间开销和可证明收敛性

提出了一种名为 MICROADAM 的 Adam 优化器新变种，它专门最小化内存开销，同时保持理论收敛性保证。通过在优化器状态之前压缩梯度信息来显著减少内存占用。使用分布式优化中的经典错误反馈机制来控制压缩误差，并实现实际的内存收益。证明了这种方法具有与 AMSGrad 相媲美的理论收敛性保证，并提供良好的实际性能。在 GPU 上有效实现的 MICROADAM 在百万级（BERT）和十亿级（LLaMA）模型上，与未压缩的 Adam 基准相比，提供了实用的竞争性收敛性，并具有更低的内存使用和类似的运行时间。

May, 2024

通过关键动量促进记忆增量 Adam 中的探索

提出了一种新的 Adam 的记忆增强版本，通过在训练过程中使用关键动量项的缓冲区，推动探索更平坦的最小值，从而提高了标准监督语言建模和图像分类任务的性能。

Jul, 2023

AdaLomo：自适应学习率的低内存优化

大型语言模型通常需要较大的内存来训练，但低内存优化（LOMO）技术通过引入自适应学习率以及矩阵分解等方法，降低了内存需求并与 AdamW 优化器在大语言模型上表现相当。

Oct, 2023

BAdam: 大型语言模型的内存高效全参数训练方法

该研究提出了 BAdam，一种利用 Adam 作为内部求解器的块坐标优化框架的优化器。BAdam 提供了一种内存高效的方法，用于对大型语言模型进行完全参数微调，通过链式规则属性减少了后向过程的运行时间。实验结果表明，BAdam 在比较 LoRA 和 LOMO 时表现出优越的收敛行为。此外，我们通过对 MT-bench 的下游性能评估来评估经过指导调整的模型，结果表明 BAdam 略优于 LoRA，并且在 LOMO 方面表现更好。最后，我们将 BAdam 与 Adam 在一个中等规模任务上进行了比较，即在 SuperGLUE 基准测试中对 RoBERTa-large 进行微调，结果表明 BAdam 能够缩小与 Adam 之间的性能差距。

Apr, 2024

基于共轭梯度类自适应矩估计优化算法的深度学习

通过将共轭普通梯度方法与 Adam 相结合，提出了一种名为 CG-like-Adam 的用于深度学习的新型优化算法，以加速训练并提升深度神经网络的性能。在该算法中，用共轭普通梯度方法替代了 Adam 的一阶和二阶矩估计，数值实验证明了该算法在 CIFAR10/100 数据集上的优越性。

Apr, 2024

Adafactor：自适应学习率与亚线性内存成本

该论文提出了一种基于行和列之和的移动平均数的方法，用于估计神经网络权重矩阵的参数，并解决了自适应方法在更新时产生的过大更新的问题。该方法能够在很少的辅助存储空间中达到与 Adam 默认规则相当的结果。

Apr, 2018

自信的自适应语言建模

使用 Confident Adaptive Language Modeling（CALM）动态分配不同量的计算资源，早期退出解码以减少计算，从而在维持高性能的同时最多可提速三倍，理论分析和实验表明其在减少计算方面的有效性。

Jul, 2022

Adapprox：通过随机低秩矩阵在 Adam 优化中进行自适应逼近

Adapprox 是一种使用随机低秩矩阵近似来更有效准确地近似 Adam 的二次矩的新方法，在 GPT-2 训练和下游任务中，Adapprox 相比 AdamW 能够实现 34.5％到 49.9％和 33.8％到 49.9％的内存节省，并且它通过提高收敛速度和改进下游任务性能相对于其他方法。

Mar, 2024

AdaZeta：自适应零阶张量列适应方法用于内存高效的大规模语言模型微调

通过提出 Adaptive Zeroth-order Tensor-Train Adaption (AdaZeta) 框架，本文致力于改进 ZO 方法的性能和收敛性，主要关注的问题包括维度相关的 ZO 估计准确性、大规模 ZO 微调任务中的发散问题，通过详细的理论分析和实验结果论证了 AdaZeta 框架在准确性、内存效率和收敛速度方面的有效性。

Jun, 2024