ZeroQuant-HERO: W8A8变换器的硬件增强鲁棒优化后训练量化框架

Oct, 2023

ZeroQuant-HERO: W8A8变换器的硬件增强鲁棒优化后训练量化框架

ZeroQuant-HERO: Hardware-Enhanced Robust Optimized Post-Training Quantization Framework for W8A8 Transformers

Zhewei Yao, Reza Yazdani Aminabadi, Stephen Youn, Xiaoxia Wu, Elton Zheng...

TL;DRQuantization techniques for deep neural network inference, specifically ZeroQuant-HERO framework, optimize memory bandwidth and hardware performance.

Abstract

quantization techniques are pivotal in reducing the memory and computational demands of deep neural network inference. Existing solutions, such as ZeroQuant, offer dynamic quantization for models like BERT and GP

发现论文，激发创造

HAQ: 硬件感知自动混合精度量化

本文介绍了一种基于深度强化学习的硬件感知自适应量化方法，将硬件加速器的反馈置于设计循环中以自动确定量化策略，该方法可以为不同的神经网络架构和硬件架构专门量身定制量化策略。与传统方法相比，该方法可以将延迟降低1.4-1.95倍，能量消耗降低1.9倍，并提供了不同量化策略的含义，为神经网络架构设计和硬件架构设计提供了新的思路。

Nov, 2018

Q8BERT：量化8位BERT

本文介绍了如何在BERT的fine-tuning阶段进行量化感知的训练，以将BERT压缩4倍并加速推理速度。

Oct, 2019

深度学习推理的整数量化：原理与实证评估

本文介绍了量化技术如何减小深度神经网络的规模，提高推理延迟和吞吐量，并评估它们在各种应用领域的不同神经网络模型上的选择，包括视觉、语音和语言等方面，并重点介绍适用于高吞吐量整数数学流水线处理器加速的量化技术。同时，还提供了一种8位量化工作流，能够在所有研究的网络上保持1%的浮点基线精度，包括更难量化的模型，如MobileNets和BERT-large。

Apr, 2020

BatchQuant: 鲁棒量化器的量子化全架构搜索

我们提出了BatchQuant，这是一种稳健的量化器公式，可在数量少得多的GPU小时内训练出一种超过10^{76}个量化子网的紧凑超网，并首次无需重新训练即可无缝扩展一次权重共享NAS超网以支持任意超低位宽混合精度量化策略的子网。

May, 2021

ZeroQuant: 大规模Transformer的高效和实惠的后训练量化

本研究提出了一种有效而实惠的后训练量化方法，ZeroQuant，用于压缩大型Transformer-based模型。ZeroQuant采用细粒度硬件友好量化、层内知识蒸馏算法、优化的量化系统等三个主要组成部分，能够在尽可能减少精度损失的情况下实现模型压缩和性能提升。

Jun, 2022

LLM.int8(): 用于大规模Transformers的8位矩阵乘法

通过Int8矩阵乘法的程序，我们可以在保持全精度性能的前提下将推理所需的内存削减一半，使用LLM.int8()，我们可以展示出具有高达175B参数的LLMs性能无损推理的可能性，这一结果使得该模型更加易于使用并且可以在单个服务器上运行。

Aug, 2022

SmoothQuant：大型语言模型后训练量化的准确高效算法

SmoothQuant是一个训练免费的精度保持、通用的后训练量化解决方案，用于大型语言模型（LLMs），通过平滑激活异常值并在权重和激活之间进行数学上等效的变换以迁移量化难度，可以实现LLMs的8位权重和激活（W8A8）量化，同时提高硬件效率，以较小的精度损失实现高达2倍的内存减少和1.56倍的加速，是一个可降低硬件成本、民主化LLMs的一站式解决方案。

Nov, 2022

ZeroQuant-FP: 使用浮点格式的LLM后训练W4A8量化的飞跃

使用浮点量化在大型语言模型中表现出色，尤其是FP8和FP4的浮点数，在模型参数超过十亿时性能优势更加明显。对于权重量化来说，FP4与INT4相比表现出可比、甚至更好的性能，简化了在支持FP的硬件上部署。对于通过权重和激活之间差异引起的精度对齐开销，我们提出了两个权重量化的缩放约束条件，对性能的影响微乎其微，与标准的W4A8模型相比。此外，我们还结合了低秩补偿（LoRC）策略来增强量化方法，特别适用于较小的模型。研究结果强调了浮点量化在大型语言模型中的巨大潜力，为资源受限环境中的高效部署铺平了道路。

Jul, 2023

SmoothQuant+: 精确高效的LLM后训练4位权重量化

提出了SmoothQuant+方法，它是一种准确而高效的4位权重量化方法，能够无损地减小大语言模型的内存开销，并且在精确度上没有损失。通过SmoothQuant+，Code Llama-34B模型能够在一张A100 40GB GPU上实现无损的准确度，并且相较于在两张A100 40GB GPUs上部署的FP16模型，能够提高1.9至4.0倍的吞吐量，每个token的延迟仅为FP16模型的68%。这是已知的大语言模型4位权重量化的最先进方法。

Dec, 2023

ZeroQuant(4+2): 通过一种基于FP6的新策略重新定义LLMs量化，用于不同的生成任务

本研究审查了大型语言模型中的4位量化方法，重点关注GPTQ在零样本任务中的过拟合问题和限制。我们扩展了任务范围，涵盖了生成类别，如代码生成和抽象概括，发现INT4量化在其中显著性能不佳。然而，转向高精度格式如FP6却面临挑战，因为现有AI硬件上缺乏复杂的集成和系统加速策略导致性能较差，常被忽视。实验结果显示，FP6，即便采用粗粒度的量化方案，也能在各种算法和任务上表现出色，展示了它在准确性和多功能性方面的优势。值得注意的是，使用FP6量化，codestar-15B模型在代码生成方面表现与其FP16对等，对于较小的模型如406M，与摘要生成的基准模型非常接近，而INT4无法达到这种性能。为了更好适应各种AI硬件并实现最佳系统性能，我们提出了一种用于FP6的新颖4+2设计，以达到与最先进的INT4精细的量化相似的时延。通过我们的设计，FP6可以成为当前LLMs中使用的4位量化方法的有希望的解决方案。

Dec, 2023