无训练的大型语言模型激活稀疏性
我们研究了大型语言模型的精确稀疏微调问题,通过引入稀疏权重在专门的任务上微调预训练的语言模型。我们提出了一种称为SquareHead的基于L2范数的蒸馏方法,能够在高稀疏率下实现准确恢复,并展示了稀疏语言模型在CPU和GPU执行中的速度提升。
Oct, 2023
基于对神经元输出大小和阈值的调整,我们提出了一种通用方法,用于定义神经元激活,并证明非ReLU的大语言模型也可以呈现稀疏激活。通过对不同激活函数的模型进行全面的实验,我们发现采用ReLU$^2$的模型在稀疏性、预测性以及硬件亲和性等方面表现出色,显示出其作为稀疏大语言模型中高效的激活函数的潜力。
Feb, 2024
使用Learn-To-be-Efficient算法能够实现大型语言模型的效率提升,通过激活较少神经元来获得更好的稀疏性和性能平衡,取得了较好的结果。
Feb, 2024
本文介绍了一种名为“ProSparse”的有效稀疏化方法,通过将大型语言模型中的激活函数替换为ReLU,并采用沿正弦曲线逐渐增加的因子的渐进稀疏正则化,实现了更高的激活稀疏性而不降低模型性能,从而提供了实际的推理加速。
Feb, 2024
基于Contextually Aware Thresholding for Sparsity (CATS)的新框架用于稀疏化大型语言模型的激活并降低推理成本,在不需要微调的情况下,CATS-based模型可以在50%的激活稀疏程度下实现与基础模型1-2%的下游任务性能,并且具有更快的收敛速度和更好的任务性能。
Apr, 2024
使用稀疏性加速预训练大型语言模型 (LLMs) 的训练过程,通过观察前向迭代中被激活的神经元的稀疏性,排除不活跃的神经元以提高计算速度,这一方法在实践中实现了与标准训练相媲美甚至更好的性能,持续预训练中吞吐量提升了45%,在监督微调中节省了38%的训练时间,提供了一个简单、硬件无关且易于部署的额外LLM训练框架。
Jun, 2024
利用激活稀疏性是大型语言模型(LLM)推理过程中显著加速的一种有希望的方法,但是激活稀疏性由激活函数决定,而常用的SwiGLU和GeGLU等函数显示出有限的稀疏性,仅用ReLU替换这些函数无法实现足够的稀疏性,此外,不充分的训练数据还会进一步增加性能下降的风险。为了解决这些挑战,我们提出了一种新颖的dReLU函数,旨在改善LLM的激活稀疏性,以及高质量的训练数据混合比例以促进有效稀疏化。此外,我们利用Mixture-of-Experts(MoE)模型中Feed-Forward Network(FFN)专家内的稀疏激活模式进一步提高效率。通过将我们的神经元稀疏化方法应用于Mistral和Mixtral模型,每次推理迭代只激活25亿和43亿个参数,同时实现更强大的模型性能。评估结果表明,这种稀疏性实现了2-5倍的解码加速。值得注意的是,在手机上,我们的TurboSparse-Mixtral-47B每秒实现11个标记的推理速度。我们的模型可在https://huggingface.co/PowerInfer获得。
Jun, 2024
我们介绍了一种名为Q-Sparse的简单而有效的方法,用于训练稀疏激活的大型语言模型(LLMs),可以在推理过程中带来显著的效率提升。
Jul, 2024
本研究解决了动态激活技术在大型语言模型中依赖ReLU激活函数和额外训练参数的问题,提出了一种无需训练的阈值动态激活(TDA)方法。这一方法利用序列信息提升了模型的固有稀疏性,加速了生成速度18-25%,在不显著影响任务表现的情况下,推动了研究的有效性和效率。
Aug, 2024
本研究解决了在边缘设备上部署大型语言模型(LLM)时面临的计算和内存要求问题。提出了一种新的激活稀疏化方法CHESS,通过通道阈值和选择性稀疏化优化激活决策。实验表明,CHESS在保持性能的同时,较现有方法降低了参数激活数量,从而实现了最高1.27倍的推理加速。
Sep, 2024