回到过去：推理阶段中的高效低密度语言模型

Oct, 2023

回到过去：推理阶段中的高效低密度语言模型

Deja Vu: Contextual Sparsity for Efficient LLMs at Inference Time

Zichang Liu, Jue Wang, Tri Dao, Tianyi Zhou, Binhang Yuan...

TL;DR使用上下文稀疏性预测算法和异步硬件感知实现，提出了 DejaVu 系统，可在不影响模型质量的情况下将 OPT-175B 的推理延迟降低了 2 倍，并且相比于最先进的 FasterTransformer 实现和广泛使用的 Hugging Face 实现，可降低推理延迟超过 6 倍。

Abstract

large language models (LLMs) with hundreds of billions of parameters have sparked a new wave of exciting AI applications. However, they are computationally expensive at inference time. →

large language models sparsity contextual sparsity inference time dejavu

发现论文，激发创造

ShadowLLM: 基于预测的上下文稀疏化大语言模型

使用 ShadowLLM 预测器可实现更好的稀疏模式，提高 15% 的准确率，同时减少 20% 的延迟，验证了具有 300 亿参数的模型。

Jun, 2024

高稀疏性基础 Llama 模型的高效预训练和部署

通过稀疏性，我们能够以较小的模型实现更快的训练和推理加速，并且不牺牲准确性。

May, 2024

压缩上下文以增强大型语言模型的推理效率

使用选择性上下文方法（Selective Context）可以显著提高大型语言模型（LLMs）的推理效率，减少内存占用和推理时间，并在维持可比较性能的基础上实现对上下文成本的 50％降低，36％的推理内存使用率降低以及 32％的推理时间降低。

Oct, 2023

面向高效和可解释的自回归转换器的动态上下文剪枝

本文提出一种采用动态修剪机制的 Autoregressive Transformers 方法，可以在保持模型表现力不变的同时，减少生成过程中上下文信息的存储和计算负担，有效地解决了推理成本过高的问题。实验证明，该方法可以高效地修剪 80% 的上下文信息，同时大幅提升推理吞吐量和节约存储空间。

May, 2023

大规模语言模型的稀疏加速训练

使用稀疏性加速预训练大型语言模型 (LLMs) 的训练过程，通过观察前向迭代中被激活的神经元的稀疏性，排除不活跃的神经元以提高计算速度，这一方法在实践中实现了与标准训练相媲美甚至更好的性能，持续预训练中吞吐量提升了 45%，在监督微调中节省了 38% 的训练时间，提供了一个简单、硬件无关且易于部署的额外 LLM 训练框架。

Jun, 2024

自适应结构稀疏注意力的长环境 LLM 推理近无损加速

本文提出了 SampleAttention，一种自适应结构化的稀疏注意力机制，通过捕捉稀疏模式和列条纹模式来减少时间到第一个令牌的延迟，并在大规模语言模型中取得了几乎没有准确性损失的效果。

Jun, 2024

大语言模型推理加速的稀疏微调

我们研究了大型语言模型的精确稀疏微调问题，通过引入稀疏权重在专门的任务上微调预训练的语言模型。我们提出了一种称为 SquareHead 的基于 L2 范数的蒸馏方法，能够在高稀疏率下实现准确恢复，并展示了稀疏语言模型在 CPU 和 GPU 执行中的速度提升。

Oct, 2023

密集稀疏检索：使用稀疏语言模型进行推理高效密集检索

研究使用稀疏语言模型替代矢量检索系统来提高推理效率，实验结果表明使用 MSMARCO 数据集，精确度几乎没下降，推理速度最多提高了 4.3 倍。

Mar, 2023

Flash-LLM：使用非结构稀疏性实现成本效益高且高效的大型生成模型推断

Flash-LLM 是一种针对大型生成模型的低成本高效大规模推断框架，通过优化稀疏矩阵乘法，在高性能 Tensor Cores 上实现了显著的性能提升。

Sep, 2023

面向 LLM 的稀疏引导整体解释与可解释的推理时间干预

通过稀疏引导技术，SparseCBM 提供了对大型语言模型的全面解释，包括输入、子网络和概念级别，同时引入可解释的推断时间干预维度，在模型部署期间实现动态调整，通过实证评估证明 SparseCBM 在解释和改善模型不准确性方面具有深刻的理解能力。

Dec, 2023