Apr, 2024

BAdam: 大型语言模型的内存高效全参数训练方法

TL;DR该研究提出了 BAdam,一种利用 Adam 作为内部求解器的块坐标优化框架的优化器。BAdam 提供了一种内存高效的方法,用于对大型语言模型进行完全参数微调,通过链式规则属性减少了后向过程的运行时间。实验结果表明,BAdam 在比较 LoRA 和 LOMO 时表现出优越的收敛行为。此外,我们通过对 MT-bench 的下游性能评估来评估经过指导调整的模型,结果表明 BAdam 略优于 LoRA,并且在 LOMO 方面表现更好。最后,我们将 BAdam 与 Adam 在一个中等规模任务上进行了比较,即在 SuperGLUE 基准测试中对 RoBERTa-large 进行微调,结果表明 BAdam 能够缩小与 Adam 之间的性能差距。