AdaLomo：自适应学习率的低内存优化

Oct, 2023

AdaLomo：自适应学习率的低内存优化

AdaLomo: Low-memory Optimization with Adaptive Learning Rate

Kai Lv, Hang Yan, Qipeng Guo, Haijun Lv, Xipeng Qiu

TL;DR大型语言模型通常需要较大的内存来训练，但低内存优化（LOMO）技术通过引入自适应学习率以及矩阵分解等方法，降低了内存需求并与 AdamW 优化器在大语言模型上表现相当。

Abstract

large language models have achieved remarkable success, but their extensive parameter size necessitates substantial memory for training, thereby setting a high threshold. While the recently proposed low-memory optimizat

large language models low-memory optimization adaptive learning rate optimizer memory requirements

发现论文，激发创造

内存高效的自适应优化

本文介绍了一种效率高、灵活性强、内存占用少的自适应优化方法，保留了每个参数的自适应性优势，同时允许使用更大的模型和批量大小，具有很好的收敛性和训练效果。

Jan, 2019

有限资源下的大型语言模型全参数微调

提出了一种名为 LOw-Memory Optimization（LOMO）的新优化器，该优化器将梯度计算和参数更新融合为一步，可以在单台机器上通过充分利用记忆方案使大型语言模型（LLMs）进行全参数微调的训练过程中降低内存使用，并成功地在一台装有 8 个 RTX 3090 的机器上对一个拥有 65B 参数的模型进行充分微调。

Jun, 2023

BAdam: 大型语言模型的内存高效全参数训练方法

该研究提出了 BAdam，一种利用 Adam 作为内部求解器的块坐标优化框架的优化器。BAdam 提供了一种内存高效的方法，用于对大型语言模型进行完全参数微调，通过链式规则属性减少了后向过程的运行时间。实验结果表明，BAdam 在比较 LoRA 和 LOMO 时表现出优越的收敛行为。此外，我们通过对 MT-bench 的下游性能评估来评估经过指导调整的模型，结果表明 BAdam 略优于 LoRA，并且在 LOMO 方面表现更好。最后，我们将 BAdam 与 Adam 在一个中等规模任务上进行了比较，即在 SuperGLUE 基准测试中对 RoBERTa-large 进行微调，结果表明 BAdam 能够缩小与 Adam 之间的性能差距。

Apr, 2024

MoMo: 动量模型适应学习率

通过使用新的自适应学习率，开发了带有动量方法的 MoMo and MoMo-Adam，并增强了模型通过使用批次损失和梯度来建立模型和较低下限估计的模型，实现迭代优化影像分类模型，相较于 SGDM 和 Adam，提高了准确性和鲁棒性。

May, 2023

AdaMoLE：使用自适应的低秩适应专家对大型语言模型进行微调

AdaMoLE 是一种通过自适应混合低秩适应（LoRA）专家的方法，用于对大型语言模型（LLMs）进行精细调节。它通过使用专用阈值网络来动态调整激活阈值，从而对不同任务的变化复杂性进行自适应响应。通过将单个 LoRA 替换为多个 LoRA 专家，并将门控函数与阈值机制集成，AdaMoLE 可以有效地选择和激活最合适的专家。通过在多种常识推理和自然语言处理任务上进行广泛评估，我们发现 AdaMoLE 的性能优于基准性能。这种改进突出了 AdaMoLE 自适应选择 LoRA 专家的优势，提高了模型的有效性而不增加专家数量。实验证实了 AdaMoLE 作为增强 LLMs 的强大方法，并且对于自适应专家选择机制的未来研究提出了有价值的方向，潜在地扩大了优化模型性能在不同语言处理任务中的范围。

May, 2024

Adam-mini: 更少的学习率，取得更多的收益

Adam-mini 是一个优化器，通过减少内存占用量（相较于 AdamW 减少了 45％至 50％）来实现与之相当或更好的性能。Adam-mini 通过减少 Adam 中的学习率数量来降低内存使用，使用预定义参数块中 $v$ 的平均值作为该块的学习率。通过在各种语言模型上进行实证验证，我们发现 Adam-mini 在预训练、监督微调和增强学习等方面显示出与 AdamW 相当或更好的性能，同时还减少了通信开销，并提高了吞吐量。

Jun, 2024

ZO-AdaMU 优化器：零阶优化中动量和不确定性的适应扰动

MeZO 的模拟摄动随机逼近梯度估计导致严重震荡和时间开销，缺少动量正则化，而 ZO-AdaMU 通过在随机梯度近似中采用动量来解决这些问题，收敛性分析和实验表明这是改善 ZO-SGD 收敛稳定性和速率的更好方法。

Dec, 2023

Adafactor：自适应学习率与亚线性内存成本

该论文提出了一种基于行和列之和的移动平均数的方法，用于估计神经网络权重矩阵的参数，并解决了自适应方法在更新时产生的过大更新的问题。该方法能够在很少的辅助存储空间中达到与 Adam 默认规则相当的结果。

Apr, 2018

CAME：基于置信度的自适应内存高效优化

本研究提出了一种同时具有传统自适应方法快速收敛和内存高效方法的名为 CAME 的优化器，实验证明它在 NLP 任务中很稳定并具有更高的性能。

Jul, 2023

DiLoCo: 分布式低通信语言模型训练

利用分布式优化算法 DiLoCo，可以在受连接限制的设备群组中训练语言模型，具有与完全同步优化相媲美的性能，但通信开销降低了 500 倍，并且对于数据分布和资源可用性的变化都具有良好的鲁棒性。

Nov, 2023