大规模语言模型的稀疏加速训练

ACLJun, 2024

Sparsity-Accelerated Training for Large Language Models

Da Ma, Lu Chen, Pengyu Wang, Hongshen Xu, Hanqi Li...

TL;DR使用稀疏性加速预训练大型语言模型 (LLMs) 的训练过程，通过观察前向迭代中被激活的神经元的稀疏性，排除不活跃的神经元以提高计算速度，这一方法在实践中实现了与标准训练相媲美甚至更好的性能，持续预训练中吞吐量提升了 45%，在监督微调中节省了 38% 的训练时间，提供了一个简单、硬件无关且易于部署的额外 LLM 训练框架。

Abstract

large language models (LLMs) have demonstrated proficiency across various natural language processing (NLP) tasks but often require additional training, such as continual pre-training and supervised fine-tuning. However, the costs associated with this, primarily due to their large para

large language models sparsity pre-trained llms neuron importance evaluation metrics sparsity-accelerated training (sat)

发现论文，激发创造

高稀疏性基础 Llama 模型的高效预训练和部署

通过稀疏性，我们能够以较小的模型实现更快的训练和推理加速，并且不牺牲准确性。

May, 2024

学会高效：在大型语言模型中构建结构化稀疏性

使用 Learn-To-be-Efficient 算法能够实现大型语言模型的效率提升，通过激活较少神经元来获得更好的稀疏性和性能平衡，取得了较好的结果。

Feb, 2024

大语言模型推理加速的稀疏微调

我们研究了大型语言模型的精确稀疏微调问题，通过引入稀疏权重在专门的任务上微调预训练的语言模型。我们提出了一种称为 SquareHead 的基于 L2 范数的蒸馏方法，能够在高稀疏率下实现准确恢复，并展示了稀疏语言模型在 CPU 和 GPU 执行中的速度提升。

Oct, 2023

SPDF：大型语言模型的稀疏预训练和密集微调

本文提出了一种基于稀疏先训练和密集微调的预训练语言模型方法，可将训练 FLOPs 的数量降低到原来的 2.5 倍，同时保持与密集基线相同的下游任务准确性。该方法为训练大规模 GPT 模型提供了一个可行的方向。

Mar, 2023

SPP：稀疏保存的参数高效微调大型语言模型

介绍了一种基于稀疏保持参数高效微调的方法，通过轻量级可学习的列和行矩阵对稀疏大语言模型的权重进行优化，保持修剪过的预训练模型的结构和稀疏性，显著提升了稀疏大语言模型的性能。

May, 2024

小型语言模型中实现稀疏激活

我们在小型语言模型（SLMs）中实现了稀疏激活，并通过新的归因测量指标以达到精确的稀疏激活，实验证明我们的方法可以在只损失 < 5% 的模型准确性的情况下实现 80% 的稀疏化比率，可与大型语言模型（LLMs）中实现的稀疏激活相媲美。

Jun, 2024

SLTrain：一种用于参数和内存高效预训练的稀疏低秩方法

通过在预训练中将权重参数化为低秩和稀疏矩阵之和，我们提出了一种称为 SLTrain 的方法，它通过矩阵分解学习低秩部分，然后使用随机固定支撑稀疏学习策略学习非零条目，这种策略显著提高了预训练性能。与低秩参数化预训练相比，SLTrain 几乎没有额外的参数和内存开销，但实现了与完全秩训练相当的性能。当与量化和逐层更新相结合时，SLTrain 可以将内存要求降低高达 73%。

Jun, 2024

无需训练的动态稀疏化：针对稀疏长模型的零训练微调

基于 Dynamic Sparse No Training (DSnoT) 的训练无关的微调方法，能够有效地提高稀疏语言模型的性能，并开拓了将稀疏性应用于大型语言模型的潜力。

Oct, 2023

大规模语言模型的稀疏微调扩展

大型语言模型 (Large Language Models) 在指令或人类反馈方面很难进行全面的微调，但参数高效稀疏微调 (sparse fine-tuning) 的方法已经在性能上取得了一定的成果，本文将稀疏微调方法扩展到像 LLaMA 2 7B 和 13B 这样的最先进的 LLMs，实验证明对指令调整进行稀疏微调通常比流行的参数高效微调方法如 LoRA 表现更好，并且在运行时间上可比较。

Jan, 2024

ShadowLLM: 基于预测的上下文稀疏化大语言模型

使用 ShadowLLM 预测器可实现更好的稀疏模式，提高 15% 的准确率，同时减少 20% 的延迟，验证了具有 300 亿参数的模型。

Jun, 2024