Mar, 2023

SPDF:大型语言模型的稀疏预训练和密集微调

TL;DR本文提出了一种基于稀疏先训练和密集微调的预训练语言模型方法,可将训练 FLOPs 的数量降低到原来的 2.5 倍,同时保持与密集基线相同的下游任务准确性。该方法为训练大规模 GPT 模型提供了一个可行的方向。