第一激活至关重要:大型语言模型中无训练动态激活的方法
这篇论文研究了大语言模型在资源受限设备上推断计算中的挑战与改进方法,通过重新引入ReLU激活函数并探索其稀疏模式,作者提出了一种实用的策略,可以显著减少推断计算量,达到三倍的性能提升。
Oct, 2023
基于对神经元输出大小和阈值的调整,我们提出了一种通用方法,用于定义神经元激活,并证明非ReLU的大语言模型也可以呈现稀疏激活。通过对不同激活函数的模型进行全面的实验,我们发现采用ReLU$^2$的模型在稀疏性、预测性以及硬件亲和性等方面表现出色,显示出其作为稀疏大语言模型中高效的激活函数的潜力。
Feb, 2024
使用Learn-To-be-Efficient算法能够实现大型语言模型的效率提升,通过激活较少神经元来获得更好的稀疏性和性能平衡,取得了较好的结果。
Feb, 2024
我们对LLaMA系列语言模型中动态激活机制的功效进行了系统的调查,发现了当前动态激活方案存在的一些内在缺陷。通过对各种动态激活策略进行广泛的实验证明,与ReLU激活函数的对应模型相比,LLaMA模型在要求高稀疏比率的场景中通常表现较差。我们将这些缺陷归因于以下几个因素:1)动态预测激活头和神经元的内在复杂性;2)激活函数引起的不充分稀疏性;3)KV缓存跳过引起的信息不充分保留。我们的分析不仅揭示了大规模LLaMA模型中动态激活的局限性,还提出了增强未来稀疏方案设计的路线图。
May, 2024
基于梯度的度量方法探索了大型语言模型内部的参数激活程度,发现参数在浅层被密集激活,而在深层被稀疏激活;当输入跨越不同领域时,浅层参数的激活行为更相似;在深层,参数的激活分布与实际数据相关性呈正相关;进一步验证了这些发现,并期望能在实际应用中产生更多启发。
May, 2024
利用激活稀疏性是大型语言模型(LLM)推理过程中显著加速的一种有希望的方法,但是激活稀疏性由激活函数决定,而常用的SwiGLU和GeGLU等函数显示出有限的稀疏性,仅用ReLU替换这些函数无法实现足够的稀疏性,此外,不充分的训练数据还会进一步增加性能下降的风险。为了解决这些挑战,我们提出了一种新颖的dReLU函数,旨在改善LLM的激活稀疏性,以及高质量的训练数据混合比例以促进有效稀疏化。此外,我们利用Mixture-of-Experts(MoE)模型中Feed-Forward Network(FFN)专家内的稀疏激活模式进一步提高效率。通过将我们的神经元稀疏化方法应用于Mistral和Mixtral模型,每次推理迭代只激活25亿和43亿个参数,同时实现更强大的模型性能。评估结果表明,这种稀疏性实现了2-5倍的解码加速。值得注意的是,在手机上,我们的TurboSparse-Mixtral-47B每秒实现11个标记的推理速度。我们的模型可在https://huggingface.co/PowerInfer获得。
Jun, 2024
我们在小型语言模型(SLMs)中实现了稀疏激活,并通过新的归因测量指标以达到精确的稀疏激活,实验证明我们的方法可以在只损失<5%的模型准确性的情况下实现80%的稀疏化比率,可与大型语言模型(LLMs)中实现的稀疏激活相媲美。
Jun, 2024
大规模语言模型的 Massive Over-activation Yielded Uplifts(MOYU) 是一种固有属性,基于 MOYU 属性的动态激活(DA) 是一种旨在加速这些模型推理的巧妙但未被充分探索的策略。本文澄清了 MOYU 特性的根本原因,阐述了当前DA方法存在的两个主要限制机制:1)与历史相关的激活不确定性,2)语义无关的激活惯性。我们的分析不仅突出了当前大规模LLaMA模型中动态激活策略的局限性,还提出了改进未来稀疏度方案设计的机会。
Jun, 2024
本研究解决了大型语言模型激活稀疏性在提高推理速度方面的普遍应用瓶颈。提出了一种名为TEAL的简单无训练方法,通过对整个模型的隐藏状态应用幅度基础的激活稀疏性,显著提升了稀疏性水平且几乎不降低性能。该方法在不同规模的模型上实现了更高的解码速度,有助于提升推理效率。
Aug, 2024
本研究解决了在边缘设备上部署大型语言模型(LLM)时面临的计算和内存要求问题。提出了一种新的激活稀疏化方法CHESS,通过通道阈值和选择性稀疏化优化激活决策。实验表明,CHESS在保持性能的同时,较现有方法降低了参数激活数量,从而实现了最高1.27倍的推理加速。
Sep, 2024