QuantTune: 自适应异常值驱动的模型量化优化
OutlierTune 是一种针对 LLMs 激活的高效后训练量化方法,它通过预执行去量化和对称化两个组件,解决了大规模语言模型的激活量化准确性和硬件效率问题。
Jun, 2024
NoisyQuant 是一种用于视觉变换器 post-training activation 量化性能增强的量化器不可知增强方法。它的理论是,在给定量化器的情况下,添加一个固定的均匀噪声偏差可以在可证明的条件下显着降低量化误差。基于这个理论,NoisyQuant 成功地通过添加增量噪声偏差来改变重尾激活分布并适应给定的量化器。大量实验展示了 NoisyQuant 在使视觉变换器进行 post-training quantization 时可以大幅度提高性能,而且计算成本较小。
Nov, 2022
本文提出了双均匀量化方法和用 Hessian 指导的指标方法来优化视觉转换器上量化的准确度,提出了一个高效的框架 PTQ4ViT,实验证明量化视觉转换器在 ImageNet 分类任务上能够实现接近无损的预测准确度(8 位量化的准确度降低小于 0.5%)。
Nov, 2021
本研究旨在将后训练量化与仅对定向任务的一些部分进行量化的精细调整相结合,以使模型更加快速且效率更高,我们提出了 AlphaTuning 控制模型的大小,通过二进制编码量化、调整二进制参数和针对下游任务进行唯一的倍数调整,证明我们的方法在 11 种下游任务上使用 4 位或更高的量化精度时,仅使用总参数数量的 1/10 进行细调。
Oct, 2022
本文介绍了一种有效的后训练量化算法,以降低视觉变换器的内存存储和计算成本,并在多个基准模型和数据集上证明了所提出的方法的有效性,在 ImageNet 数据集上使用 DeiT-B 模型可获得约 8 位量化的 81.29% top-1 精度。
Jun, 2021
本文探讨了 Transformer 模型的量化问题,并给出了三种解决方法,其中一种基于 embedding group 的量化方法建立了新的量化模型,该方法可降低模型内存占用且保证了一定的精度。通过在 GLUE 基准测试中使用 BERT,我们准确评估了这些方法的有效性,并提出了一种新的超低比特宽度的 transformer 权重和 embedding 的量化方法,以实现更大的内存节省。
Sep, 2021
我们介绍了一种新的运行时方法,可以显著减少将 BERT-like 模型量化为 8 位整数所带来的准确性损失。我们的方法允许利用量化而无需进行额外的校准步骤,我们在几个 NLP 任务上的结果表明了这种技术的实用性。
Nov, 2022
该研究提出了 PV-Tuning,一个对于极端压缩语言模型的量化感知微调策略的表示无关框架,通过在实践中应用于 1-2 位矢量量化,PV-Tuning 在高性能模型如 Llama 和 Mistral 中优于先前的技术,实现了 Llama 2 系列模型每个参数 2 位的帕累托最优量化。
May, 2024
本研究提出了一种有效而实惠的后训练量化方法,ZeroQuant,用于压缩大型 Transformer-based 模型。ZeroQuant 采用细粒度硬件友好量化、层内知识蒸馏算法、优化的量化系统等三个主要组成部分,能够在尽可能减少精度损失的情况下实现模型压缩和性能提升。
Jun, 2022
Q-DiT 是一种结合了精细化量化、自动搜索策略和动态激活量化的方法,用于处理 Diffusion Transformer(DiT)模型中的权重和激活的巨大变化,以实现高效、高质量的量化和图像生成。
Jun, 2024