ShadowLLM: 基于预测的上下文稀疏化大语言模型

Jun, 2024

ShadowLLM: 基于预测的上下文稀疏化大语言模型

ShadowLLM: Predictor-based Contextual Sparsity for Large Language Models

Yash Akhauri, Ahmed F AbouElhamayed, Jordan Dotzel, Zhiru Zhang, Alexander M Rush...

TL;DR使用 ShadowLLM 预测器可实现更好的稀疏模式，提高 15% 的准确率，同时减少 20% 的延迟，验证了具有 300 亿参数的模型。

Abstract

The high power consumption and latency-sensitive deployments of large language models (LLMs) have motivated techniques like quantization and sparsity. Contextual →

large language models quantization sparsity contextual sparsity neuron importance

发现论文，激发创造

回到过去：推理阶段中的高效低密度语言模型

使用上下文稀疏性预测算法和异步硬件感知实现，提出了 DejaVu 系统，可在不影响模型质量的情况下将 OPT-175B 的推理延迟降低了 2 倍，并且相比于最先进的 FasterTransformer 实现和广泛使用的 Hugging Face 实现，可降低推理延迟超过 6 倍。

Oct, 2023

大型语言模型的一次性敏感度感知混合稀疏剪枝

通过基于 Hessian 灵敏度感知的混合稀疏剪枝方法，我们提出了一种剪枝 LLMs 的方法，以至少达到 50% 的稀疏度，而不需要任何重新训练，该方法适应性地分配稀疏度，减少了剪枝引起的错误，同时保持了整体稀疏度水平，并且在稀疏度极高时表现出更显著的优势，此外，我们的方法与量化兼容，从而进一步压缩 LLMs。

Oct, 2023

高稀疏性基础 Llama 模型的高效预训练和部署

通过稀疏性，我们能够以较小的模型实现更快的训练和推理加速，并且不牺牲准确性。

May, 2024

大规模语言模型的稀疏加速训练

使用稀疏性加速预训练大型语言模型 (LLMs) 的训练过程，通过观察前向迭代中被激活的神经元的稀疏性，排除不活跃的神经元以提高计算速度，这一方法在实践中实现了与标准训练相媲美甚至更好的性能，持续预训练中吞吐量提升了 45%，在监督微调中节省了 38% 的训练时间，提供了一个简单、硬件无关且易于部署的额外 LLM 训练框架。

Jun, 2024

序列标注的语言模型剪枝：高效的上下文表示

本研究提出了一种基于稀疏性诱导正则化的层选择方法，用于压缩大型预训练语言模型，以提高特定任务的计算效率，并在两个基准数据集上进行了实验验证其有效性。

Apr, 2018

学会高效：在大型语言模型中构建结构化稀疏性

使用 Learn-To-be-Efficient 算法能够实现大型语言模型的效率提升，通过激活较少神经元来获得更好的稀疏性和性能平衡，取得了较好的结果。

Feb, 2024

CATS：大型语言模型中的上下文感知稀疏阈值

基于 Contextually Aware Thresholding for Sparsity (CATS) 的新框架用于稀疏化大型语言模型的激活并降低推理成本，在不需要微调的情况下，CATS-based 模型可以在 50% 的激活稀疏程度下实现与基础模型 1-2% 的下游任务性能，并且具有更快的收敛速度和更好的任务性能。

Apr, 2024

Mini-GPTs: 基于上下文剪枝的高效大型语言模型

利用上下文剪枝技术开发 Mini-GPT 来优化大型语言模型（LLMs），通过对传统 LLMs 的计算架构进行剪枝，保留核心功能同时大幅减小模型大小，此方法在多样且复杂的数据集上展现了高效性和有效性，作为构建领域特定 LLMs 的潜力方法，是未来发展的基石。

Dec, 2023

自适应结构稀疏注意力的长环境 LLM 推理近无损加速

本文提出了 SampleAttention，一种自适应结构化的稀疏注意力机制，通过捕捉稀疏模式和列条纹模式来减少时间到第一个令牌的延迟，并在大规模语言模型中取得了几乎没有准确性损失的效果。

Jun, 2024

小型语言模型中实现稀疏激活

我们在小型语言模型（SLMs）中实现了稀疏激活，并通过新的归因测量指标以达到精确的稀疏激活，实验证明我们的方法可以在只损失 < 5% 的模型准确性的情况下实现 80% 的稀疏化比率，可与大型语言模型（LLMs）中实现的稀疏激活相媲美。

Jun, 2024