Q8BERT:量化 8 位 BERT
本文通过对 GLUE 和 SQuAD v1.1 数据集上的 BERT 变种进行大量实验,验证了 FP8 作为一种进行后训练量化的有效方式,能够在不显著损失精度的情况下提高准确性。
Dec, 2023
本研究提出了一种有效而实惠的后训练量化方法,ZeroQuant,用于压缩大型 Transformer-based 模型。ZeroQuant 采用细粒度硬件友好量化、层内知识蒸馏算法、优化的量化系统等三个主要组成部分,能够在尽可能减少精度损失的情况下实现模型压缩和性能提升。
Jun, 2022
该论文提出了一种量化感知张量压缩训练方法,通过将 Transformer 模型的嵌入层和线性层压缩成小的低秩张量核,进一步获得低精度的模型表示进行端到端和蒸馏 - based 训练,并应用层与层的蒸馏方法将预训练的 Transformer 模型转换为量化和张量压缩的学生模型以提高收敛速度,并在两个自然语言理解任务中表现出高达 63 倍的压缩比、几乎无损的精度损失和显著的推断和训练加速。
Jun, 2023
本研究提出了 GPTQ 一种新的一次性量化方法,可以在 4 个 GPU 小时内将 GPT 模型的参数数量降至 1750 亿,每个权重只需使用 3 到 4 个比特位即可恢复几乎与未压缩基线相同的准确性,在单个 GPU 内执行 1750 亿参数模型,快于使用 FP16 格式的 GPU,且可提供 3.25 倍至 4.5 倍的推理加速度。
Oct, 2022
通过分别实验评估了三种量化方法(LQ,ACIQ 和 OCS)对 BERT-Base 和 BERT-Large, 研究表明 OCS 可以将 BERT-Base 和 BERT-Large 量化为 3 位,并在 GLUE 基准测试中保持 98%和 96%的性能,为资源受限环境中模型调整提供指导。
Oct, 2022
本文提出了一种针对 BERT 模型的自动混合精度量化框架,可以在子组水平同时进行量化和修剪,实现了压缩模型和保持同样性能的目标,并结合 DistilBERT 等方法获得了极轻量级模型。
Dec, 2021
我们介绍了一种新的运行时方法,可以显著减少将 BERT-like 模型量化为 8 位整数所带来的准确性损失。我们的方法允许利用量化而无需进行额外的校准步骤,我们在几个 NLP 任务上的结果表明了这种技术的实用性。
Nov, 2022
本文总结了压缩预训练 Transformer 模型的研究进展,尤其关注流行的 BERT 模型的最佳压缩实践和方法,提出未来发展的方向,以达到轻量、高准确性和通用性的自然语言处理模型。
Feb, 2020
大规模基于 transformer 的模型如 BERT,可以转换为针对资源受限边缘设备优化的 FlatBuffer 格式,用于声誉分析等任务,其性能较好且具有隐私保护特性。
Oct, 2023
本研究提出了一种新的基于整数的 Transformer 模型量化方案 I-BERT,使用轻量级整数逼近方法进行端到端的 Bert 推理,无需浮点计算,相较于全精度基准实现在准确率上相当甚至略有提高,同时在 T4 GPU 系统上进行 8 位整数推理的速度比 32 位浮点推理快 2.4-4 倍。
Jan, 2021