FrameQuant: 柔性低位量化技术用于变换器
本研究提出了一种有效而实惠的后训练量化方法,ZeroQuant,用于压缩大型 Transformer-based 模型。ZeroQuant 采用细粒度硬件友好量化、层内知识蒸馏算法、优化的量化系统等三个主要组成部分,能够在尽可能减少精度损失的情况下实现模型压缩和性能提升。
Jun, 2022
本研究提出一种混合精度量化策略,将 Transformer 权重表示为极低位数(例如小于 3 位),该压缩策略使得在设备上实现高效的神经机器翻译变得可行,实现了模型大小 11.8 倍的减小,内存占用减少 8.3 倍,速度提高 3.5 倍,同时 BLEU 低于 - 0.5。
Sep, 2020
本文探讨了 Transformer 模型的量化问题,并给出了三种解决方法,其中一种基于 embedding group 的量化方法建立了新的量化模型,该方法可降低模型内存占用且保证了一定的精度。通过在 GLUE 基准测试中使用 BERT,我们准确评估了这些方法的有效性,并提出了一种新的超低比特宽度的 transformer 权重和 embedding 的量化方法,以实现更大的内存节省。
Sep, 2021
本文介绍了一种有效的后训练量化算法,以降低视觉变换器的内存存储和计算成本,并在多个基准模型和数据集上证明了所提出的方法的有效性,在 ImageNet 数据集上使用 DeiT-B 模型可获得约 8 位量化的 81.29% top-1 精度。
Jun, 2021
我们介绍了一种新的运行时方法,可以显著减少将 BERT-like 模型量化为 8 位整数所带来的准确性损失。我们的方法允许利用量化而无需进行额外的校准步骤,我们在几个 NLP 任务上的结果表明了这种技术的实用性。
Nov, 2022
本文通过对 GLUE 和 SQuAD v1.1 数据集上的 BERT 变种进行大量实验,验证了 FP8 作为一种进行后训练量化的有效方式,能够在不显著损失精度的情况下提高准确性。
Dec, 2023
本文提出了一种使用 INT4 算法进行 transformer 训练的方法,以实现低精度的前向和后向传播,并通过 Hadamard 量化器和位分裂等技术处理异常值和稀疏梯度,从而实现在当前型号 GPU 上完成快速的模型训练。
Jun, 2023
该论文提出了一种量化感知张量压缩训练方法,通过将 Transformer 模型的嵌入层和线性层压缩成小的低秩张量核,进一步获得低精度的模型表示进行端到端和蒸馏 - based 训练,并应用层与层的蒸馏方法将预训练的 Transformer 模型转换为量化和张量压缩的学生模型以提高收敛速度,并在两个自然语言理解任务中表现出高达 63 倍的压缩比、几乎无损的精度损失和显著的推断和训练加速。
Jun, 2023
通过对 Transformer 模型进行整合,得到了一个 8 位整型 Inference 算法,其鲁棒的 8 位量化方法大大减少了内存占用问题。实验结果表明,与基准架构相比,该算法的性能基本一致且内存占用减少了近 4 倍。
Sep, 2020