BAdam: 大型语言模型的内存高效全参数训练方法

Apr, 2024

BAdam: 大型语言模型的内存高效全参数训练方法

BAdam: A Memory Efficient Full Parameter Training Method for Large Language Models

Qijun Luo, Hengxu Yu, Xiao Li

TL;DR该研究提出了 BAdam，一种利用 Adam 作为内部求解器的块坐标优化框架的优化器。BAdam 提供了一种内存高效的方法，用于对大型语言模型进行完全参数微调，通过链式规则属性减少了后向过程的运行时间。实验结果表明，BAdam 在比较 LoRA 和 LOMO 时表现出优越的收敛行为。此外，我们通过对 MT-bench 的下游性能评估来评估经过指导调整的模型，结果表明 BAdam 略优于 LoRA，并且在 LOMO 方面表现更好。最后，我们将 BAdam 与 Adam 在一个中等规模任务上进行了比较，即在 SuperGLUE 基准测试中对 RoBERTa-large 进行微调，结果表明 BAdam 能够缩小与 Adam 之间的性能差距。

Abstract

This work presents badam, an optimizer that leverages the block coordinate optimization framework with Adam as the inner solver. badam offers a memory efficient approach to the full parameter finetuning of large

badam block coordinate optimization language models convergence behavior performance evaluation

发现论文，激发创造

AdaLomo：自适应学习率的低内存优化

大型语言模型通常需要较大的内存来训练，但低内存优化（LOMO）技术通过引入自适应学习率以及矩阵分解等方法，降低了内存需求并与 AdamW 优化器在大语言模型上表现相当。

Oct, 2023

内存高效的自适应优化

本文介绍了一种效率高、灵活性强、内存占用少的自适应优化方法，保留了每个参数的自适应性优势，同时允许使用更大的模型和批量大小，具有很好的收敛性和训练效果。

Jan, 2019

Adam-mini: 更少的学习率，取得更多的收益

Adam-mini 是一个优化器，通过减少内存占用量（相较于 AdamW 减少了 45％至 50％）来实现与之相当或更好的性能。Adam-mini 通过减少 Adam 中的学习率数量来降低内存使用，使用预定义参数块中 $v$ 的平均值作为该块的学习率。通过在各种语言模型上进行实证验证，我们发现 Adam-mini 在预训练、监督微调和增强学习等方面显示出与 AdamW 相当或更好的性能，同时还减少了通信开销，并提高了吞吐量。

Jun, 2024

BlockLLM: 通过选择和优化正确的块坐标来实现 LLM 的高效适应

使用 BlockLLM 方法选择和更新可训练参数的一个很小子集，从而在不改变模型架构和训练过程的情况下，减少底层优化过程的内存占用并在 GLUE 基准测试中实现了最先进的困惑度得分。

Jun, 2024

有限资源下的大型语言模型全参数微调

提出了一种名为 LOw-Memory Optimization（LOMO）的新优化器，该优化器将梯度计算和参数更新融合为一步，可以在单台机器上通过充分利用记忆方案使大型语言模型（LLMs）进行全参数微调的训练过程中降低内存使用，并成功地在一台装有 8 个 RTX 3090 的机器上对一个拥有 65B 参数的模型进行充分微调。

Jun, 2023

CAME：基于置信度的自适应内存高效优化

本研究提出了一种同时具有传统自适应方法快速收敛和内存高效方法的名为 CAME 的优化器，实验证明它在 NLP 任务中很稳定并具有更高的性能。

Jul, 2023

大规模语言模型指令调优的超参数优化

研究采用黑盒优化技术通过 LoRA 方法调优大型语言模型的超参数选择，以提高性能和人工对齐。

Dec, 2023

拆解语言模型优化器的优秀特质

通过实验比较不同优化算法在自回归语言模型中的性能，我们发现除了 SGD 外，其他算法在性能和超参数选择方面表现相似，因此实际考虑内存限制和实施便捷性等实际因素可以指导优化器的选择。同时我们还将 Adam 算法简化为 Signum 和 Adalayer 两个版本来进行研究，发现 Adam 算法的预调节主要影响最后一层和 LayerNorm 参数，而其余层可以使用 SGD 来训练。

Jul, 2024

MicroAdam：精确的自适应优化方法，低空间开销和可证明收敛性

提出了一种名为 MICROADAM 的 Adam 优化器新变种，它专门最小化内存开销，同时保持理论收敛性保证。通过在优化器状态之前压缩梯度信息来显著减少内存占用。使用分布式优化中的经典错误反馈机制来控制压缩误差，并实现实际的内存收益。证明了这种方法具有与 AMSGrad 相媲美的理论收敛性保证，并提供良好的实际性能。在 GPU 上有效实现的 MICROADAM 在百万级（BERT）和十亿级（LLaMA）模型上，与未压缩的 Adam 基准相比，提供了实用的竞争性收敛性，并具有更低的内存使用和类似的运行时间。

May, 2024

基于 Bandit Sampling 的 Adam 深度学习方法

本文提出了一种名为 Adambs 的通用优化方法，该方法可以适应模型收敛过程中不同训练样本的重要性，从而加速收敛，实验结果表明 Adambs 在各种模型和数据集上都可以快速收敛。

Oct, 2020