ZeroQuant: 大规模 Transformer 的高效和实惠的后训练量化
该论文提出了一种量化感知张量压缩训练方法,通过将 Transformer 模型的嵌入层和线性层压缩成小的低秩张量核,进一步获得低精度的模型表示进行端到端和蒸馏 - based 训练,并应用层与层的蒸馏方法将预训练的 Transformer 模型转换为量化和张量压缩的学生模型以提高收敛速度,并在两个自然语言理解任务中表现出高达 63 倍的压缩比、几乎无损的精度损失和显著的推断和训练加速。
Jun, 2023
Quantization techniques for deep neural network inference, specifically ZeroQuant-HERO framework, optimize memory bandwidth and hardware performance.
Oct, 2023
本文探讨了 Transformer 模型的量化问题,并给出了三种解决方法,其中一种基于 embedding group 的量化方法建立了新的量化模型,该方法可降低模型内存占用且保证了一定的精度。通过在 GLUE 基准测试中使用 BERT,我们准确评估了这些方法的有效性,并提出了一种新的超低比特宽度的 transformer 权重和 embedding 的量化方法,以实现更大的内存节省。
Sep, 2021
SmoothQuant 是一个训练免费的精度保持、通用的后训练量化解决方案,用于大型语言模型(LLMs),通过平滑激活异常值并在权重和激活之间进行数学上等效的变换以迁移量化难度,可以实现 LLMs 的 8 位权重和激活(W8A8)量化,同时提高硬件效率,以较小的精度损失实现高达 2 倍的内存减少和 1.56 倍的加速,是一个可降低硬件成本、民主化 LLMs 的一站式解决方案。
Nov, 2022
本文通过对 GLUE 和 SQuAD v1.1 数据集上的 BERT 变种进行大量实验,验证了 FP8 作为一种进行后训练量化的有效方式,能够在不显著损失精度的情况下提高准确性。
Dec, 2023
本研究提出了 GPTQ 一种新的一次性量化方法,可以在 4 个 GPU 小时内将 GPT 模型的参数数量降至 1750 亿,每个权重只需使用 3 到 4 个比特位即可恢复几乎与未压缩基线相同的准确性,在单个 GPU 内执行 1750 亿参数模型,快于使用 FP16 格式的 GPU,且可提供 3.25 倍至 4.5 倍的推理加速度。
Oct, 2022
本文提出一种名为 EasyQuant (EQ) 的简单有效的后训练量化方法,通过尺度优化来获得类似于基于训练方法的精度。具体地,我们针对卷积输出的所有层交替优化权重和激活的规模,以进一步获取高量化精度。然后,我们将位宽降低到 INT7,同时采用 INT16 中间存储和整数 Winograd 卷积实现加速推断。各种计算机视觉任务的实验结果表明,EQ 优于 TensorRT 方法,并且在经过 7 位宽后训练可达到接近 INT8 的精度。
Jun, 2020
通过引入从谐波分析中借用的融合框架的概念,我们提出了一种简化方案来将基于 Transformer 的模型量化为仅使用两位(加一些开销),并只在准确性上稍有降低,通过实验证明,此方案对 Transformer 模型的量化几乎可以实现显著的效率提升。
Mar, 2024
我们介绍了一种新的运行时方法,可以显著减少将 BERT-like 模型量化为 8 位整数所带来的准确性损失。我们的方法允许利用量化而无需进行额外的校准步骤,我们在几个 NLP 任务上的结果表明了这种技术的实用性。
Nov, 2022