小型语言模型中实现稀疏激活
使用 Learn-To-be-Efficient 算法能够实现大型语言模型的效率提升,通过激活较少神经元来获得更好的稀疏性和性能平衡,取得了较好的结果。
Feb, 2024
使用稀疏性加速预训练大型语言模型 (LLMs) 的训练过程,通过观察前向迭代中被激活的神经元的稀疏性,排除不活跃的神经元以提高计算速度,这一方法在实践中实现了与标准训练相媲美甚至更好的性能,持续预训练中吞吐量提升了 45%,在监督微调中节省了 38% 的训练时间,提供了一个简单、硬件无关且易于部署的额外 LLM 训练框架。
Jun, 2024
本文介绍了一种名为 “ProSparse” 的有效稀疏化方法,通过将大型语言模型中的激活函数替换为 ReLU,并采用沿正弦曲线逐渐增加的因子的渐进稀疏正则化,实现了更高的激活稀疏性而不降低模型性能,从而提供了实际的推理加速。
Feb, 2024
最近的研究工作提出了一种假设,即语言模型中的激活可以被建模为对应于输入文本特征的向量的稀疏线性组合。在这个假设下,这些工作旨在使用稀疏编码重构特征方向。我们开发了度量方法来评估这些稀疏编码技术的成功,并测试线性和稀疏假设的有效性。我们展示了我们的度量方法可以预测合成稀疏线性激活的稀疏水平,并可以区分稀疏线性数据和其他几种分布。我们使用我们的度量方法来测量几个语言模型中的稀疏水平。我们发现有证据表明语言模型的激活可以准确地被特征的稀疏线性组合所建模,这种情况比控制数据集要显著得多。我们还展示了模型的激活在第一层和最后一层似乎是最稀疏的。
Oct, 2023
利用激活稀疏性是大型语言模型(LLM)推理过程中显著加速的一种有希望的方法,但是激活稀疏性由激活函数决定,而常用的 SwiGLU 和 GeGLU 等函数显示出有限的稀疏性,仅用 ReLU 替换这些函数无法实现足够的稀疏性,此外,不充分的训练数据还会进一步增加性能下降的风险。为了解决这些挑战,我们提出了一种新颖的 dReLU 函数,旨在改善 LLM 的激活稀疏性,以及高质量的训练数据混合比例以促进有效稀疏化。此外,我们利用 Mixture-of-Experts(MoE)模型中 Feed-Forward Network(FFN)专家内的稀疏激活模式进一步提高效率。通过将我们的神经元稀疏化方法应用于 Mistral 和 Mixtral 模型,每次推理迭代只激活 25 亿和 43 亿个参数,同时实现更强大的模型性能。评估结果表明,这种稀疏性实现了 2-5 倍的解码加速。值得注意的是,在手机上,我们的 TurboSparse-Mixtral-47B 每秒实现 11 个标记的推理速度。我们的模型可在 https://huggingface.co/PowerInfer 获得。
Jun, 2024
许多成功的神经网络结构中的核心组件是一个具有非线性激活函数的两个全连接层的 MLP 块。我们在本文中对展示出激活稀疏性的 MLP 层的 PAC 可学习性进行了形式化研究,并呈现了多种实验结果,表明这类函数相对于非稀疏的对应物具有计算和统计上的优势。我们希望对 “激活稀疏” 的网络有更好的理论认识,以便能够在实践中利用激活稀疏性。
Jun, 2024
使用 ShadowLLM 预测器可实现更好的稀疏模式,提高 15% 的准确率,同时减少 20% 的延迟,验证了具有 300 亿参数的模型。
Jun, 2024
基于对神经元输出大小和阈值的调整,我们提出了一种通用方法,用于定义神经元激活,并证明非 ReLU 的大语言模型也可以呈现稀疏激活。通过对不同激活函数的模型进行全面的实验,我们发现采用 ReLU$^2$ 的模型在稀疏性、预测性以及硬件亲和性等方面表现出色,显示出其作为稀疏大语言模型中高效的激活函数的潜力。
Feb, 2024
这篇论文研究了大语言模型在资源受限设备上推断计算中的挑战与改进方法,通过重新引入 ReLU 激活函数并探索其稀疏模式,作者提出了一种实用的策略,可以显著减少推断计算量,达到三倍的性能提升。
Oct, 2023