本文提出了一种量化感知训练的方法,通过引入一种独立于小批量大小的新型规范化(Layer-Batch Normalization)和标准化权重的缩放环夹函数对权重进行量化,同时对激活函数使用同样的函数进行量化,并应用替代梯度来训练模型,实验证明我们的量化方法可以在最小的准确性降低下实现。
Mar, 2024
SmoothQuant 是一个训练免费的精度保持、通用的后训练量化解决方案,用于大型语言模型(LLMs),通过平滑激活异常值并在权重和激活之间进行数学上等效的变换以迁移量化难度,可以实现 LLMs 的 8 位权重和激活(W8A8)量化,同时提高硬件效率,以较小的精度损失实现高达 2 倍的内存减少和 1.56 倍的加速,是一个可降低硬件成本、民主化 LLMs 的一站式解决方案。
Nov, 2022
量化方法在深度神经网络的高效部署中变得至关重要,深度神经网络经常需要量化以便在计算中使用固定点操作代替浮点操作。本文探讨了一种基于梯度的后训练量化方法(GPTQ),证明了该方法在选择权重、特征增强、校准集等方面具有一定鲁棒性,并提出了设计更高效、可扩展的 GPTQ 方法的准则,最后还提出了一种基于重要性的混合精度技术,这些准则和技术共同促进了已有的 GPTQ 方法和网络的性能改进,为设计可扩展且有效的量化方法开辟了新的可能。
Aug, 2023
本文提出一种基于多点量化的离线量化方法,该方法通过线性组合多个低精度数据来逼近完整的权重向量。在不使用专门的混合精度实现的情况下,该方法取得了比业界其他方法更好的精度并广泛适用于多个领域。
Feb, 2020
本研究提出了一种有效而实惠的后训练量化方法,ZeroQuant,用于压缩大型 Transformer-based 模型。ZeroQuant 采用细粒度硬件友好量化、层内知识蒸馏算法、优化的量化系统等三个主要组成部分,能够在尽可能减少精度损失的情况下实现模型压缩和性能提升。
Jun, 2022
为了解决大型语言模型在实际应用中的内存需求和推断成本的问题,我们提出了一种高效的仅权重量化方法,通过减少内存消耗和加速推断来实现。我们引入了一种简单而有效的启发式方法,仅利用预训练模型的模型权重来确保最小质量降低。该方法适用于混合专家模型和密集模型,并且无需额外的微调。通过分析量化大型语言模型的挑战和问题,并采用自适应的量化粒度进行解决,我们展示了我们提出的方法的有效性。此外,我们实现了高效的 GPU 矩阵乘法和解量化算法,支持 fp16 或 bf16 激活与 int8 或 int4 权重的乘法。我们在 OPT-175B 和内部混合专家模型等大规模开源模型上评估了我们的方法,展示了最小的准确性损失,并在相同数量的 GPU 上实现了高达 3.65 倍的吞吐量。
提出了一种新型的后训练量化框架 RepQuant,通过量化推理解耦合范式,采用复杂的量化器进行量化过程,采用简化的量化器进行推理过程,同时将量化标度重新参数化,以确保准确的量化和高效的推理,并通过集成量化权重重构进一步提高性能限制,经过广泛的实验验证在不同大规模变压器变体上在视觉、语言和多模态转换任务中取得了显著的性能优势。
Feb, 2024
本文针对在给定模型大小时最大化其准确性的紧凑模型生成问题,将讨论延伸量化感知训练的方法,实现了仅在每个前向传递过程中量化不同的一组随机权重,从而利用 SE 残差正向时间传递的无偏梯度实现极端压缩的目的,并在自然语言处理和图像分类领域分别取得了新的准确性与模型大小之间的最优折中表现。
Apr, 2020
通过 quantization 技术,结合 SmoothQuant 和 GPTQ 两种 post-training 技术,将模型量化为 MX 格式,能够显著减小优化型模型大小至多 4 倍,提高 LLaMA 模型大小至多 3 倍,同时仅仅增加 1-3% 的困惑度。
May, 2024
通过高精度量化训练方法,减少模型大小和推理速度,提高 FPGA 部署的低延迟和低功耗神经网络的资源利用率,同时保持准确性。