CHESS：通过通道阈值优化和选择性稀疏化优化LLM推理

Sep, 2024

CHESS：通过通道阈值优化和选择性稀疏化优化LLM推理

CHESS: Optimizing LLM Inference via Channel-Wise Thresholding and Selective Sparsification

Junhui He, Shangyu Wu, Weidong Wen, Chun Jason Xue, Qingan Li

TL;DR本研究解决了在边缘设备上部署大型语言模型（LLM）时面临的计算和内存要求问题。提出了一种新的激活稀疏化方法CHESS，通过通道阈值和选择性稀疏化优化激活决策。实验表明，CHESS在保持性能的同时，较现有方法降低了参数激活数量，从而实现了最高1.27倍的推理加速。

Abstract

Deploying Large Language Models (LLMs) on Edge Devices presents significant challenges due to the substantial computational overhead and memory requirements. →

发现论文，激发创造

ReLU反击：在大型语言模型中利用激活稀疏性

这篇论文研究了大语言模型在资源受限设备上推断计算中的挑战与改进方法，通过重新引入ReLU激活函数并探索其稀疏模式，作者提出了一种实用的策略，可以显著减少推断计算量，达到三倍的性能提升。

Oct, 2023

ReLU$^2$胜出：发现稀疏LLMs的高效激活函数

基于对神经元输出大小和阈值的调整，我们提出了一种通用方法，用于定义神经元激活，并证明非ReLU的大语言模型也可以呈现稀疏激活。通过对不同激活函数的模型进行全面的实验，我们发现采用ReLU$^2$的模型在稀疏性、预测性以及硬件亲和性等方面表现出色，显示出其作为稀疏大语言模型中高效的激活函数的潜力。

Feb, 2024

学会高效：在大型语言模型中构建结构化稀疏性

使用Learn-To-be-Efficient算法能够实现大型语言模型的效率提升，通过激活较少神经元来获得更好的稀疏性和性能平衡，取得了较好的结果。

Feb, 2024

CATS：大型语言模型中的上下文感知稀疏阈值

基于Contextually Aware Thresholding for Sparsity (CATS)的新框架用于稀疏化大型语言模型的激活并降低推理成本，在不需要微调的情况下，CATS-based模型可以在50%的激活稀疏程度下实现与基础模型1-2%的下游任务性能，并且具有更快的收敛速度和更好的任务性能。

Apr, 2024

减轻GLU-Based LLMs中由激活峰值引起的量化误差

现代大型语言模型通过架构改进取得了最先进的性能，但仍需要昂贵的计算成本进行推理。本文研究了GLU变体中激活量化的挑战，揭示了过量激活量级引起的严重局部量化误差，提出了两种经验方法来隔离激活峰值，并验证了在最新的GLU变体的大型语言模型中的有效性。

May, 2024

大规模语言模型的稀疏加速训练

使用稀疏性加速预训练大型语言模型 (LLMs) 的训练过程，通过观察前向迭代中被激活的神经元的稀疏性，排除不活跃的神经元以提高计算速度，这一方法在实践中实现了与标准训练相媲美甚至更好的性能，持续预训练中吞吐量提升了45%，在监督微调中节省了38%的训练时间，提供了一个简单、硬件无关且易于部署的额外LLM训练框架。

Jun, 2024

Turbo稀疏: 最小激活参数实现LLM的最新技术表现

利用激活稀疏性是大型语言模型（LLM）推理过程中显著加速的一种有希望的方法，但是激活稀疏性由激活函数决定，而常用的SwiGLU和GeGLU等函数显示出有限的稀疏性，仅用ReLU替换这些函数无法实现足够的稀疏性，此外，不充分的训练数据还会进一步增加性能下降的风险。为了解决这些挑战，我们提出了一种新颖的dReLU函数，旨在改善LLM的激活稀疏性，以及高质量的训练数据混合比例以促进有效稀疏化。此外，我们利用Mixture-of-Experts（MoE）模型中Feed-Forward Network（FFN）专家内的稀疏激活模式进一步提高效率。通过将我们的神经元稀疏化方法应用于Mistral和Mixtral模型，每次推理迭代只激活25亿和43亿个参数，同时实现更强大的模型性能。评估结果表明，这种稀疏性实现了2-5倍的解码加速。值得注意的是，在手机上，我们的TurboSparse-Mixtral-47B每秒实现11个标记的推理速度。我们的模型可在https://huggingface.co/PowerInfer获得。

Jun, 2024

小型语言模型中实现稀疏激活

我们在小型语言模型（SLMs）中实现了稀疏激活，并通过新的归因测量指标以达到精确的稀疏激活，实验证明我们的方法可以在只损失<5%的模型准确性的情况下实现80%的稀疏化比率，可与大型语言模型（LLMs）中实现的稀疏激活相媲美。

Jun, 2024

MInference 1.0:通过动态稀疏注意力加速长上下文LLM的预填充

通过识别长上下文注意力矩阵中的独特模式（A形、垂直斜线和稀疏块），并利用GPU上的稀疏计算方法，我们提出了MInference（百万令牌推理），以显著减少长上下文大型语言模型的预填充阶段的延迟。

Jul, 2024

无训练的大型语言模型激活稀疏性

本研究解决了大型语言模型激活稀疏性在提高推理速度方面的普遍应用瓶颈。提出了一种名为TEAL的简单无训练方法，通过对整个模型的隐藏状态应用幅度基础的激活稀疏性，显著提升了稀疏性水平且几乎不降低性能。该方法在不同规模的模型上实现了更高的解码速度，有助于提升推理效率。

Aug, 2024