TP 感知的去量化

Jan, 2024

TP-Aware Dequantization

Adnan Hoque, Mudhakar Srivatsa, Chih-Chieh Yang, Raghu Ganti

TL;DR通过优化的推断部署方案，在分布式部署大型语言模型时减少了模型推断延迟。

Abstract

In this paper, we present a novel method that reduces model inference latency during distributed deployment of large language models (LLMs

model inference latency distributed deployment large language models optimized inference deployment scheme tensor parallel

发现论文，激发创造

APTQ：针对大型语言模型的注意力感知后训练混合精度量化

通过引入 APTQ（关注感知的后训练混合精度量化），该研究提出了一种在大规模语言模型上进行混合精度量化的方法，利用 Hessian 迹作为灵敏度指标，以实现在模型性能保持的前提下进行精度降低，并取得了优于以往量化方法的效果。

Feb, 2024

通过张量分解和运行时重新定量化加速大型语言模型

基于算法和硬件协同设计的解决方案 Tender，能够以低精度有效部署 LLM 推理，通过分析 LLMs 中的异常值，提出了一种分解的量化技术，其分解矩阵的尺度因子相隔为二的幂，该方案避免了显式的重新量化，并且在现有加速器中具有更高的准确性和推理性能，同时降低了干扰。

Jun, 2024

自然语言理解的量化感知和张量压缩 Transformer 训练

该论文提出了一种量化感知张量压缩训练方法，通过将 Transformer 模型的嵌入层和线性层压缩成小的低秩张量核，进一步获得低精度的模型表示进行端到端和蒸馏 - based 训练，并应用层与层的蒸馏方法将预训练的 Transformer 模型转换为量化和张量压缩的学生模型以提高收敛速度，并在两个自然语言理解任务中表现出高达 63 倍的压缩比、几乎无损的精度损失和显著的推断和训练加速。

Jun, 2023

可部署的 LLM 压缩加速之旅

通过硬件为中心的方法，我们的压缩方法在硬件加速的基础上构建了一种新的 W4A8 内核实现，具有量化策略的综合配方，通过广泛的实验证明了我们的 W4A8 方法对于 Hugging Face FP16 推断的实际加速效果为 4 倍，对于 TensorRT-LLM 推断引擎的 FP16 加速效果为 2.23 倍，对于 TensorRT-LLM 推断引擎的 INT8 加速效果为 1.45 倍，且不会对性能造成实质性的损害。

Nov, 2023

迈向超大规模 Transformer 的下一级后训练量化

本文提出了一种新颖的 PTQ 算法 aespa，通过逐层量化实现高效性，同时考虑跨层依赖以保留注意力分数，通过对多种语言模型的广泛实验和复杂度分析，证明了 aespa 在量化 Transformer 模型时具备准确性和高效性。

Feb, 2024

LLM-PQ：利用多阶段感知分割和自适应量化为异构集群提供 LLM

LLM-PQ 是一个提倡自适应模型量化和阶段感知模型分区的系统，旨在通过在异构 GPU 集群上提高 LLM 的服务效率。通过混合精度模型量化、阶段感知模型分区和微批量大小的决策，LLM-PQ 大大提高了推理吞吐量，同时满足用户指定的模型质量目标。对 11 个不同集群上的生产推理工作负载进行的大量实验表明，LLM-PQ 在推理上实现了高达 2.88 倍（平均 2.26 倍）的吞吐量改进，显示出较其他最先进方法的巨大优势。

Mar, 2024

LLM-QAT: 大型语言模型的无数据量化感知训练

通过提出一种数据无关的蒸馏方法，利用预训练模型生成的结果来实现对语言模型低位量化，包括权重、激活值和 KV Cache，该方法比已有的基于训练后量化和无训练量化方法更适用于低精度位级下的大型语言模型。

May, 2023

无需反向传播的注意力感知后训练量化

提出了一种不依赖于反向传播的新型 PTQ 算法，通过开发具有注意力机制的 Hessian 矩阵来考虑层间依赖关系，从而显著优于传统的 PTQ 方法，特别是在低位宽情况下。

Jun, 2024

LLM 的低秩量化感知训练

大型语言模型经常遇到计算和存储需求增加的挑战，为此我们提出了一种名为 LR-QAT 的轻量级、存储高效的量化感知训练算法，通过使用低秩辅助权重、固定点或双包整数的强制转换运算符以及检查点等组件，我们可以在不牺牲预测性能的情况下节省内存，该方法可应用于多种量化设置并与多种 PTQ 技术无缝结合，有效提升模型性能并在内存使用上达到与全模型 QAT 相当的水平。

Jun, 2024

ZeroQuant: 大规模 Transformer 的高效和实惠的后训练量化

本研究提出了一种有效而实惠的后训练量化方法，ZeroQuant，用于压缩大型 Transformer-based 模型。ZeroQuant 采用细粒度硬件友好量化、层内知识蒸馏算法、优化的量化系统等三个主要组成部分，能够在尽可能减少精度损失的情况下实现模型压缩和性能提升。

Jun, 2022