快速：量化感知的交错和无冲突内核用于高效 LLM 推理

Feb, 2024

快速：量化感知的交错和无冲突内核用于高效 LLM 推理

QUICK: Quantization-aware Interleaving and Conflict-free Kernel for efficient LLM inference

Taesu Kim, Jongho Lee, Daehyun Ahn, Sarang Kim, Jiwoong Choi...

TL;DRQUICK 是一组新型优化的 CUDA 内核，用于高效推理量化的大型语言模型。QUICK 解决了现有混合精度矩阵乘法内核中的共享内存冲突问题，通过离线交错量化的权重矩阵跳过解量化后的共享内存写回。我们展示了在较大批次上相对于 AutoAWQ 现有内核的高达 1.91 倍的加速效果，并在各种 NVIDIA GPU 设备上相对于代表性 LLM 模型获得高达 1.94 倍的吞吐量提升。

Abstract

We introduce quick, a group of novel optimized cuda kernels for the efficient inference of quantized large language models (LLMs).

quick cuda kernels quantized large language models shared memory bank-conflict problem mixed precision matrix multiplication

发现论文，激发创造

nuQmm: 大规模生成式语言模型高效推理的量化矩阵乘法

该论文提出了一个有效的推理框架用于大规模生成式语言模型，采用自我监督学习和 Transformer 架构的最新进展实现了低困惑度，通过非均匀量化和 nuQmm 的加速矩阵乘法，实现了模型大小的减小，并减少了大型 LM 的推理延迟

Jun, 2022

在 CPU 上高效 LLM 推断

本论文提出了一种有效的方法，可以更高效地部署大型语言模型，通过自动 INT4 纯权重量化流和设计具有高度优化内核的特殊 LLM 运行时，在 CPU 上加速 LLM 推理，展示了该方法对包括 Llama2、Llama、GPT-NeoX 等流行 LLM 的普适性，并显示了在 CPU 上的极高推理效率。

Nov, 2023

QQQ：大型语言模型的高质量四位量化

QQQ 是一种基于四位权重和八位激活的优质量化方法，通过自适应平滑和基于 Hessian 的补偿显著提高了量化模型的性能，并通过精心设计的 W4A8 GEMM 核心增加了推理速度。与现有的最新 LLM 量化方法相当的性能，显著加速推理，与 FP16、W8A8 和 W4A16 相比，速度提升分别达到了 2.24 倍、2.10 倍和 1.25 倍。

Jun, 2024

可部署的 LLM 压缩加速之旅

通过硬件为中心的方法，我们的压缩方法在硬件加速的基础上构建了一种新的 W4A8 内核实现，具有量化策略的综合配方，通过广泛的实验证明了我们的 W4A8 方法对于 Hugging Face FP16 推断的实际加速效果为 4 倍，对于 TensorRT-LLM 推断引擎的 FP16 加速效果为 2.23 倍，对于 TensorRT-LLM 推断引擎的 INT8 加速效果为 1.45 倍，且不会对性能造成实质性的损害。

Nov, 2023

双粒度量化：LLM 的高效细粒度量化

该论文介绍了一种称为 Dual Grained Quantization (DGQ) 的新型量化技术，通过将细粒度的 INT4 权重解量化为粗粒度的 INT8 表示，并使用 INT8 内核进行矩阵乘法，来保持卓越性能同时确保快速推理速度。实验结果表明，DGQ 在各种 LLM 架构和广泛的任务中始终优于之前的方法，通过高效的 CUTLASS 内核，实现 1.12 倍的内存减少和 3.24 倍的速度增益，从而实现了 A8W4 LLM 在实际应用中的高效部署。

Oct, 2023

FineQuant: 低精度量化后全连接网络权重细粒度优化

为了解决大型语言模型在实际应用中的内存需求和推断成本的问题，我们提出了一种高效的仅权重量化方法，通过减少内存消耗和加速推断来实现。我们引入了一种简单而有效的启发式方法，仅利用预训练模型的模型权重来确保最小质量降低。该方法适用于混合专家模型和密集模型，并且无需额外的微调。通过分析量化大型语言模型的挑战和问题，并采用自适应的量化粒度进行解决，我们展示了我们提出的方法的有效性。此外，我们实现了高效的 GPU 矩阵乘法和解量化算法，支持 fp16 或 bf16 激活与 int8 或 int4 权重的乘法。我们在 OPT-175B 和内部混合专家模型等大规模开源模型上评估了我们的方法，展示了最小的准确性损失，并在相同数量的 GPU 上实现了高达 3.65 倍的吞吐量。

Aug, 2023

QServe: W4A8KV4 量化和系统协同设计用于高效 LLM 服务

量化技术在提速大规模语言模型推理方面发挥作用，但现有的 INT4 量化方法在大批量云端应用中存在效率问题。本研究提出了一种名为 QoQ 的算法，该算法通过使用 4 位权重、8 位激活和 4 位 KV 缓存来解决该挑战，并通过 QServe 推理库实现。QServe 在 GPU 上通过低吞吐 CUDA 核心上的操作来提高 LLM 服务的效率，采用渐进量化来减小 W4A8 GEMM 的量化开销，并通过 SmoothAttention 减轻 4 位 KV 量化带来的精度下降，从而有效提高 LLM 的服务吞吐量，降低成本。

May, 2024

AWQ：激活感知权重量化用于低限制存储压缩和加速

提出了一种基于激活函数的、硬件友好型的低比特权重量化方法。该方法可以保护神经网络的关键权重并保持其泛化能力，在不影响硬件效率的前提下，有效降低了语言模型部署的成本。

Jun, 2023

QIGen：大型语言模型量化推理的高效内核生成

我们提出了一种自动代码生成的新方法，用于支持 LLMs（如 LLaMA 或 OPT）上的量化生成推理，并在现成的 CPU 上做了研究，结果表明我们的方法在性能和准确性方面较好。

Jul, 2023

SqueezeLLM：紧密稀疏量化

通过引入 SqueezeLLM 后训练的量化框架，该框架不仅实现了高达 3 位的无损压缩，还在相同的内存约束下实现了更高的量化性能，可以将羊毛出在羊身上，仿佛神器一般。

Jun, 2023