May, 2023

利用仅前向传递微调语言模型

TL;DR本篇论文提出了一种名为 MeZO 的零阶优化方法,以替代反向传播法来进行大规模语言模型的微调,从而实现与推理阶段相同的内存占用,该方法在理论上被认为优化大型模型的速度极慢,但本研究的实验结果表明,MeZO 能够使用少至单个 A100 80GB GPU 就能训练出具有几十亿甚至数百亿参数规模的语言模型,并在多个下游任务上与反向传播微调的性能相当。