Jun, 2024

Turbo 稀疏:最小激活参数实现 LLM 的最新技术表现

TL;DR利用激活稀疏性是大型语言模型(LLM)推理过程中显著加速的一种有希望的方法,但是激活稀疏性由激活函数决定,而常用的 SwiGLU 和 GeGLU 等函数显示出有限的稀疏性,仅用 ReLU 替换这些函数无法实现足够的稀疏性,此外,不充分的训练数据还会进一步增加性能下降的风险。为了解决这些挑战,我们提出了一种新颖的 dReLU 函数,旨在改善 LLM 的激活稀疏性,以及高质量的训练数据混合比例以促进有效稀疏化。此外,我们利用 Mixture-of-Experts(MoE)模型中 Feed-Forward Network(FFN)专家内的稀疏激活模式进一步提高效率。通过将我们的神经元稀疏化方法应用于 Mistral 和 Mixtral 模型,每次推理迭代只激活 25 亿和 43 亿个参数,同时实现更强大的模型性能。评估结果表明,这种稀疏性实现了 2-5 倍的解码加速。值得注意的是,在手机上,我们的 TurboSparse-Mixtral-47B 每秒实现 11 个标记的推理速度。我们的模型可在 https://huggingface.co/PowerInfer 获得。