TP 感知的去量化
通过引入 APTQ(关注感知的后训练混合精度量化),该研究提出了一种在大规模语言模型上进行混合精度量化的方法,利用 Hessian 迹作为灵敏度指标,以实现在模型性能保持的前提下进行精度降低,并取得了优于以往量化方法的效果。
Feb, 2024
基于算法和硬件协同设计的解决方案 Tender,能够以低精度有效部署 LLM 推理,通过分析 LLMs 中的异常值,提出了一种分解的量化技术,其分解矩阵的尺度因子相隔为二的幂,该方案避免了显式的重新量化,并且在现有加速器中具有更高的准确性和推理性能,同时降低了干扰。
Jun, 2024
该论文提出了一种量化感知张量压缩训练方法,通过将 Transformer 模型的嵌入层和线性层压缩成小的低秩张量核,进一步获得低精度的模型表示进行端到端和蒸馏 - based 训练,并应用层与层的蒸馏方法将预训练的 Transformer 模型转换为量化和张量压缩的学生模型以提高收敛速度,并在两个自然语言理解任务中表现出高达 63 倍的压缩比、几乎无损的精度损失和显著的推断和训练加速。
Jun, 2023
通过硬件为中心的方法,我们的压缩方法在硬件加速的基础上构建了一种新的 W4A8 内核实现,具有量化策略的综合配方,通过广泛的实验证明了我们的 W4A8 方法对于 Hugging Face FP16 推断的实际加速效果为 4 倍,对于 TensorRT-LLM 推断引擎的 FP16 加速效果为 2.23 倍,对于 TensorRT-LLM 推断引擎的 INT8 加速效果为 1.45 倍,且不会对性能造成实质性的损害。
Nov, 2023
本文提出了一种新颖的 PTQ 算法 aespa,通过逐层量化实现高效性,同时考虑跨层依赖以保留注意力分数,通过对多种语言模型的广泛实验和复杂度分析,证明了 aespa 在量化 Transformer 模型时具备准确性和高效性。
Feb, 2024
LLM-PQ 是一个提倡自适应模型量化和阶段感知模型分区的系统,旨在通过在异构 GPU 集群上提高 LLM 的服务效率。通过混合精度模型量化、阶段感知模型分区和微批量大小的决策,LLM-PQ 大大提高了推理吞吐量,同时满足用户指定的模型质量目标。对 11 个不同集群上的生产推理工作负载进行的大量实验表明,LLM-PQ 在推理上实现了高达 2.88 倍(平均 2.26 倍)的吞吐量改进,显示出较其他最先进方法的巨大优势。
Mar, 2024
通过提出一种数据无关的蒸馏方法,利用预训练模型生成的结果来实现对语言模型低位量化,包括权重、激活值和 KV Cache,该方法比已有的基于训练后量化和无训练量化方法更适用于低精度位级下的大型语言模型。
May, 2023
提出了一种不依赖于反向传播的新型 PTQ 算法,通过开发具有注意力机制的 Hessian 矩阵来考虑层间依赖关系,从而显著优于传统的 PTQ 方法,特别是在低位宽情况下。
Jun, 2024
大型语言模型经常遇到计算和存储需求增加的挑战,为此我们提出了一种名为 LR-QAT 的轻量级、存储高效的量化感知训练算法,通过使用低秩辅助权重、固定点或双包整数的强制转换运算符以及检查点等组件,我们可以在不牺牲预测性能的情况下节省内存,该方法可应用于多种量化设置并与多种 PTQ 技术无缝结合,有效提升模型性能并在内存使用上达到与全模型 QAT 相当的水平。
Jun, 2024
本研究提出了一种有效而实惠的后训练量化方法,ZeroQuant,用于压缩大型 Transformer-based 模型。ZeroQuant 采用细粒度硬件友好量化、层内知识蒸馏算法、优化的量化系统等三个主要组成部分,能够在尽可能减少精度损失的情况下实现模型压缩和性能提升。
Jun, 2022