利用稀疏性和数据流高效训练大型语言模型
本文提出了一种基于稀疏先训练和密集微调的预训练语言模型方法,可将训练 FLOPs 的数量降低到原来的 2.5 倍,同时保持与密集基线相同的下游任务准确性。该方法为训练大规模 GPT 模型提供了一个可行的方向。
Mar, 2023
我们研究了大型语言模型的精确稀疏微调问题,通过引入稀疏权重在专门的任务上微调预训练的语言模型。我们提出了一种称为 SquareHead 的基于 L2 范数的蒸馏方法,能够在高稀疏率下实现准确恢复,并展示了稀疏语言模型在 CPU 和 GPU 执行中的速度提升。
Oct, 2023
本文提出了一种名为 SparseGPT 的新型剪枝方法,能够高效、准确地应用于海量的 GPT 模型,实现一次性稀疏化至少 50%,并在几乎不影响困惑度的情况下,将最大可用的开源模型 OPT-175B 和 BLOOM-176B 稀疏化至 60%。
Jan, 2023
该研究提出了参数有效的稀疏训练 (PST) 方法,通过减少可训练参数的数量以使得稀疏训练资源有效并具有参数效益,从而解决了稀疏训练时计算开销和内存占用的问题,在 BERT,RoBERTa 和 GPT-2 等网络上得到了有效验证。
May, 2022
我们提出了 SPT 系统,通过引入稀疏性来高效地微调基于 Transformers 的模型,减少内存消耗,并且在各种模型配置上优于优化的基准模型,将峰值内存消耗降低了多达 50%,加速微调速度高达 2.2 倍。
Dec, 2023
通过基于 Hessian 灵敏度感知的混合稀疏剪枝方法,我们提出了一种剪枝 LLMs 的方法,以至少达到 50% 的稀疏度,而不需要任何重新训练,该方法适应性地分配稀疏度,减少了剪枝引起的错误,同时保持了整体稀疏度水平,并且在稀疏度极高时表现出更显著的优势,此外,我们的方法与量化兼容,从而进一步压缩 LLMs。
Oct, 2023
我们探讨了参数稀疏性对在大规模数据集上训练的 Transformer(即 “基础模型”)的扩展行为的影响,涉及视觉和语言领域。我们首次确定了描述权重稀疏性、非零参数数量和训练数据量之间关系的扩展定律,并通过 ViT/JFT-4B 和 T5/C4 在模型和数据规模上进行了实证验证;这些结果使我们能够表征 “最佳稀疏度”,即对于给定的有效模型大小和训练预算,可以在其中获得最佳性能的稀疏度水平。我们发现,在非零参数数量固定时,最佳稀疏度随着用于训练的数据量增加而增加。我们还将研究扩展到了不同的稀疏结构(如硬件友好的 n:m 模式)和策略(如从预训练的稠密模型开始)。我们的发现揭示了在各种参数和计算设置中权重稀疏性的能力和局限性,为利用稀疏性提高计算效率提供了理论理解和实际意义。
Sep, 2023
本论文提出了一种新的并行计算方法(并行、管道、数据并行),并探讨了不同并行计算方法之间的权衡取舍,可使模型达到拥有万亿参数的级别,提高了 10%的吞吐量,是现有方法的可比内存占用率。在 3072 个 GPU 上完成了 1 万亿参数模型的训练,每个 GPU 的吞吐量达到了理论峰值的 52%。
Apr, 2021