AdaLomo:自适应学习率的低内存优化
提出了一种名为 LOw-Memory Optimization(LOMO)的新优化器,该优化器将梯度计算和参数更新融合为一步,可以在单台机器上通过充分利用记忆方案使大型语言模型(LLMs)进行全参数微调的训练过程中降低内存使用,并成功地在一台装有 8 个 RTX 3090 的机器上对一个拥有 65B 参数的模型进行充分微调。
Jun, 2023
该研究提出了 BAdam,一种利用 Adam 作为内部求解器的块坐标优化框架的优化器。BAdam 提供了一种内存高效的方法,用于对大型语言模型进行完全参数微调,通过链式规则属性减少了后向过程的运行时间。实验结果表明,BAdam 在比较 LoRA 和 LOMO 时表现出优越的收敛行为。此外,我们通过对 MT-bench 的下游性能评估来评估经过指导调整的模型,结果表明 BAdam 略优于 LoRA,并且在 LOMO 方面表现更好。最后,我们将 BAdam 与 Adam 在一个中等规模任务上进行了比较,即在 SuperGLUE 基准测试中对 RoBERTa-large 进行微调,结果表明 BAdam 能够缩小与 Adam 之间的性能差距。
Apr, 2024
通过使用新的自适应学习率,开发了带有动量方法的 MoMo and MoMo-Adam,并增强了模型通过使用批次损失和梯度来建立模型和较低下限估计的模型,实现迭代优化影像分类模型,相较于 SGDM 和 Adam,提高了准确性和鲁棒性。
May, 2023
AdaMoLE 是一种通过自适应混合低秩适应(LoRA)专家的方法,用于对大型语言模型(LLMs)进行精细调节。它通过使用专用阈值网络来动态调整激活阈值,从而对不同任务的变化复杂性进行自适应响应。通过将单个 LoRA 替换为多个 LoRA 专家,并将门控函数与阈值机制集成,AdaMoLE 可以有效地选择和激活最合适的专家。通过在多种常识推理和自然语言处理任务上进行广泛评估,我们发现 AdaMoLE 的性能优于基准性能。这种改进突出了 AdaMoLE 自适应选择 LoRA 专家的优势,提高了模型的有效性而不增加专家数量。实验证实了 AdaMoLE 作为增强 LLMs 的强大方法,并且对于自适应专家选择机制的未来研究提出了有价值的方向,潜在地扩大了优化模型性能在不同语言处理任务中的范围。
May, 2024
Adam-mini 是一个优化器,通过减少内存占用量(相较于 AdamW 减少了 45%至 50%)来实现与之相当或更好的性能。Adam-mini 通过减少 Adam 中的学习率数量来降低内存使用,使用预定义参数块中 $v$ 的平均值作为该块的学习率。通过在各种语言模型上进行实证验证,我们发现 Adam-mini 在预训练、监督微调和增强学习等方面显示出与 AdamW 相当或更好的性能,同时还减少了通信开销,并提高了吞吐量。
Jun, 2024
MeZO 的模拟摄动随机逼近梯度估计导致严重震荡和时间开销,缺少动量正则化,而 ZO-AdaMU 通过在随机梯度近似中采用动量来解决这些问题,收敛性分析和实验表明这是改善 ZO-SGD 收敛稳定性和速率的更好方法。
Dec, 2023
该论文提出了一种基于行和列之和的移动平均数的方法,用于估计神经网络权重矩阵的参数,并解决了自适应方法在更新时产生的过大更新的问题。该方法能够在很少的辅助存储空间中达到与 Adam 默认规则相当的结果。
Apr, 2018
利用分布式优化算法 DiLoCo,可以在受连接限制的设备群组中训练语言模型,具有与完全同步优化相媲美的性能,但通信开销降低了 500 倍,并且对于数据分布和资源可用性的变化都具有良好的鲁棒性。
Nov, 2023