Flash-LLM：使用非结构稀疏性实现成本效益高且高效的大型生成模型推断

Sep, 2023

Flash-LLM：使用非结构稀疏性实现成本效益高且高效的大型生成模型推断

Flash-LLM: Enabling Cost-Effective and Highly-Efficient Large Generative Model Inference with Unstructured Sparsity

Haojun Xia, Zhen Zheng, Yuchao Li, Donglin Zhuang, Zhongzhu Zhou...

TL;DRFlash-LLM 是一种针对大型生成模型的低成本高效大规模推断框架，通过优化稀疏矩阵乘法，在高性能 Tensor Cores 上实现了显著的性能提升。

Abstract

With the fast growth of parameter size, it becomes increasingly challenging to deploy large generative models as they typically require large GPU memory consumption and massive computation. Unstructured model pruning has been a common approach to reduce both GPU memory footprint and th

large generative models unstructured sparsity tensor core hardware sparse matrix multiplication flash-llm

发现论文，激发创造

LLM 闪电般的运算：利用有限内存高效推理的大型语言模型

本研究旨在通过使用闪存将模型参数存储在 DRAM 之外，以满足超过 DRAM 容量的大型语言模型（LLMs）的高效运行需求。本文提出了两种主要技术，即通过重新使用已激活的神经元来减少数据传输的 “窗口化” 与利用闪存的顺序数据访问能力来增加数据块大小的 “行列捆绑”。这些方法使得模型能够在可用 DRAM 容量的两倍大小的情况下运行，并在与传统加载方法相比，CPU 和 GPU 分别实现 4-5 倍和 20-25 倍的推理速度提升。本研究通过结合稀疏感知、上下文自适应加载和面向硬件的设计，为在内存有限的设备上进行有效的 LLMs 推理铺平了道路。

Dec, 2023

高稀疏性基础 Llama 模型的高效预训练和部署

通过稀疏性，我们能够以较小的模型实现更快的训练和推理加速，并且不牺牲准确性。

May, 2024

FlashDecoding++: 在 GPU 上更快的大型语言模型推理

FlashDecoding++ 是支持主流 LLM 和硬件后端的快速 LLM 推理引擎，通过引入异步 softmax、平坦 GEMM 优化和启发式数据流等技术，相较于 Hugging Face 实现，在 NVIDIA 和 AMD GPU 上实现了最高 4.86 倍和 2.18 倍的加速，在主流 LLMs 上平均实现了 1.37 倍的速度提升。

Nov, 2023

一款高效稀疏推断软件加速器，用于基于转换器的语言模型在 CPU 上

本论文提出了一种基于定常块大小的高效稀疏深度学习推断软件堆栈，可以将稀疏加速器应用于 Transformer-based 语言模型，我们的稀疏加速器在处理各种 GEMM 形状时，比现有的稀疏库快一个数量级，在 Xeon 上具有高效的性能。

Jun, 2023

SqueezeLLM：紧密稀疏量化

通过引入 SqueezeLLM 后训练的量化框架，该框架不仅实现了高达 3 位的无损压缩，还在相同的内存约束下实现了更高的量化性能，可以将羊毛出在羊身上，仿佛神器一般。

Jun, 2023

FlightLLM: 基于 FPGA 的高效大型语言模型推断及其完整映射流程

该研究论文提出了一种基于 FPGA 的 FlightLLM 方法，通过利用 FPGA 特定资源和创新解决方案，实现了大规模语言模型（LLMs）的高效推理，包括压缩技术、计算效率、内存带宽和编译开销等方面的优化。在实验中，该方法在 Xilinx Alveo U280 FPGA 上实现了高达 6.0 倍的能效提升和 1.8 倍的成本效益，同时在吞吐量方面也超过了 NVIDIA A100 GPU。

Jan, 2024

学会高效：在大型语言模型中构建结构化稀疏性

使用 Learn-To-be-Efficient 算法能够实现大型语言模型的效率提升，通过激活较少神经元来获得更好的稀疏性和性能平衡，取得了较好的结果。

Feb, 2024

E-Sparse: 通过基于熵的 N:M 稀疏性提升大型语言模型推理

传统修剪方法在大型语言模型中的使用具有挑战性，因为训练过程代价高且计算需求大。我们首次引入隐藏状态特征的信息熵作为修剪度量设计，即 E-Sparse，以提高大型语言模型的 N:M 稀疏性准确性，并通过引入信息熵和几种创新技术来快速优化信息分布和应对 N:M 稀疏性对准确性的影响。E-Sparse 通过 FasterTransformer 实现为 Sparse-GEMM，并在 NVIDIA Ampere GPU 上运行。对 LLaMA 系列和 OPT 模型进行的广泛实验表明，E-Sparse 可以显著加速模型推理（高达 1.53 倍），并实现显著的内存节省（高达 43.52%），在可接受的准确性损失范围内。

Oct, 2023

大语言模型推理加速的稀疏微调

我们研究了大型语言模型的精确稀疏微调问题，通过引入稀疏权重在专门的任务上微调预训练的语言模型。我们提出了一种称为 SquareHead 的基于 L2 范数的蒸馏方法，能够在高稀疏率下实现准确恢复，并展示了稀疏语言模型在 CPU 和 GPU 执行中的速度提升。

Oct, 2023

基于英特尔 GPU 的高效 LLM 推理解决方案

提议了一种高效的大型语言模型推理解决方案，通过简化模型结构、融合数据移动和逐元素操作、使用段落 KV 缓存策略等方法降低系统延迟并提高吞吐量，在 Intel GPU 上相对于标准 HuggingFace 实现，能够实现高达 7 倍的令牌延迟降低和 27 倍的吞吐量提升。

Dec, 2023