CATS：大型语言模型中的上下文感知稀疏阈值

Apr, 2024

CATS：大型语言模型中的上下文感知稀疏阈值

CATS: Contextually-Aware Thresholding for Sparsity in Large Language Models

Je-Yong Lee, Donghyun Lee, Genghan Zhang, Mo Tiwari, Azalia Mirhoseini

TL;DR基于 Contextually Aware Thresholding for Sparsity (CATS) 的新框架用于稀疏化大型语言模型的激活并降低推理成本，在不需要微调的情况下，CATS-based 模型可以在 50% 的激活稀疏程度下实现与基础模型 1-2% 的下游任务性能，并且具有更快的收敛速度和更好的任务性能。

Abstract

large language models (LLMs) have dramatically advanced AI applications, yet their deployment remains challenging due to their immense inference costs. Recent studies ameliorate the computational costs of LLMs by

large language models inference costs activation sparsity contextually aware thresholding for sparsity downstream task performance

发现论文，激发创造

学会高效：在大型语言模型中构建结构化稀疏性

使用 Learn-To-be-Efficient 算法能够实现大型语言模型的效率提升，通过激活较少神经元来获得更好的稀疏性和性能平衡，取得了较好的结果。

Feb, 2024

ShadowLLM: 基于预测的上下文稀疏化大语言模型

使用 ShadowLLM 预测器可实现更好的稀疏模式，提高 15% 的准确率，同时减少 20% 的延迟，验证了具有 300 亿参数的模型。

Jun, 2024

大规模语言模型的稀疏加速训练

使用稀疏性加速预训练大型语言模型 (LLMs) 的训练过程，通过观察前向迭代中被激活的神经元的稀疏性，排除不活跃的神经元以提高计算速度，这一方法在实践中实现了与标准训练相媲美甚至更好的性能，持续预训练中吞吐量提升了 45%，在监督微调中节省了 38% 的训练时间，提供了一个简单、硬件无关且易于部署的额外 LLM 训练框架。

Jun, 2024

大型模型是简明学习者：训练转换器中的激活稀疏性

通过实验证明机器学习模型的机制使得 transformer 架构的激活图稀疏化，进而提出一种可以显著降低计算量并提高效率的方式。

Oct, 2022

小型语言模型中实现稀疏激活

我们在小型语言模型（SLMs）中实现了稀疏激活，并通过新的归因测量指标以达到精确的稀疏激活，实验证明我们的方法可以在只损失 < 5% 的模型准确性的情况下实现 80% 的稀疏化比率，可与大型语言模型（LLMs）中实现的稀疏激活相媲美。

Jun, 2024

高稀疏性基础 Llama 模型的高效预训练和部署

通过稀疏性，我们能够以较小的模型实现更快的训练和推理加速，并且不牺牲准确性。

May, 2024

Turbo 稀疏：最小激活参数实现 LLM 的最新技术表现

利用激活稀疏性是大型语言模型（LLM）推理过程中显著加速的一种有希望的方法，但是激活稀疏性由激活函数决定，而常用的 SwiGLU 和 GeGLU 等函数显示出有限的稀疏性，仅用 ReLU 替换这些函数无法实现足够的稀疏性，此外，不充分的训练数据还会进一步增加性能下降的风险。为了解决这些挑战，我们提出了一种新颖的 dReLU 函数，旨在改善 LLM 的激活稀疏性，以及高质量的训练数据混合比例以促进有效稀疏化。此外，我们利用 Mixture-of-Experts（MoE）模型中 Feed-Forward Network（FFN）专家内的稀疏激活模式进一步提高效率。通过将我们的神经元稀疏化方法应用于 Mistral 和 Mixtral 模型，每次推理迭代只激活 25 亿和 43 亿个参数，同时实现更强大的模型性能。评估结果表明，这种稀疏性实现了 2-5 倍的解码加速。值得注意的是，在手机上，我们的 TurboSparse-Mixtral-47B 每秒实现 11 个标记的推理速度。我们的模型可在 https://huggingface.co/PowerInfer 获得。

Jun, 2024

ProSparse: 大型语言模型中引入并增强内在激活稀疏性

本文介绍了一种名为 “ProSparse” 的有效稀疏化方法，通过将大型语言模型中的激活函数替换为 ReLU，并采用沿正弦曲线逐渐增加的因子的渐进稀疏正则化，实现了更高的激活稀疏性而不降低模型性能，从而提供了实际的推理加速。

Feb, 2024

关键学习时期：利用早期训练动态进行高效数据修剪

我们提出了一种新的数据修剪技术：Checkpoints Across Time (CAT)，通过利用早期模型训练动态来识别对模型性能最相关的数据点，实现了在减少 50% 的训练数据的同时，与使用完整数据集的性能相当，且优于其他数据修剪技术。

May, 2024

回到过去：推理阶段中的高效低密度语言模型

使用上下文稀疏性预测算法和异步硬件感知实现，提出了 DejaVu 系统，可在不影响模型质量的情况下将 OPT-175B 的推理延迟降低了 2 倍，并且相比于最先进的 FasterTransformer 实现和广泛使用的 Hugging Face 实现，可降低推理延迟超过 6 倍。

Oct, 2023