- 自我蒸馏量化:在基于 Transformer 的语言模型中实现高压缩率
通过后训练量化和量化意识训练来研究 Transformer 语言模型的概括化效果。提出了一种称为自身蒸馏量化(SDQ)的方法,该方法最小化积累的量化误差,并优于基线。将 SDQ 应用于多语言模型 XLM-R-Base 和 InfoXLM-B - Q-YOLO:实时目标检测的高效推理
本研究描述了一种低位量化方法来构建一个高效的单级检测器,称为 Q-YOLO,有利于在资源受限的边缘设备上部署目标检测模型,从而实现减少计算和内存开销的实时检测。
- 大语言模型中的权重量化激活异常值教训
本文提出了一种后训练量化方法,可以在不损失质量的情况下,在模型中针对 weight 使用较高的精度,大大降低了模型推理需要的 GPU 数量,实现了更高的经济性。
- ICMLFlexRound: 基于元素除法的可学习取整,用于后训练量化
本研究提出了一种名为 FlexRound 的新的权重取整机制,通过元素除法实现对预训练权重的灵活量化,可以一起学习一个公共的量化网格大小以及每个预训练权重的不同比例。实验结果表明,该机制用于后训练量化可以有效提高模型性能,并且还可以在图像分 - 面向扩散模型的准确无数据量化
本文提出了一种基于拓散模型的精确无数据后训练量化框架,用于高效图像生成。采用组内量化函数设计不同步骤的激活离散化,对最优步骤进行信息量化图像生成,旨在提高量化图像生成的泛化能力。通过实验结果表明,该方法在类似的计算成本下,比扩散模型的最新后 - LLM-QAT: 大型语言模型的无数据量化感知训练
通过提出一种数据无关的蒸馏方法,利用预训练模型生成的结果来实现对语言模型低位量化,包括权重、激活值和 KV Cache,该方法比已有的基于训练后量化和无训练量化方法更适用于低精度位级下的大型语言模型。
- PTQD:针对扩散模型的精确后训练量化
本研究提出了一种用于量化噪声和扩散扰动噪声的统一方法,并使用所提出的混合精度方案,校准降噪方差表并选取每个降噪步骤的最佳位宽,显著提高了量化后扩散模型的样本质量且减少了操作次数。
- 超分辨率网络后量化的分布灵活子集量化
该论文介绍了一种名为 DFSQ 的后训练量化方法,以优化超分辨率网络,通过对激活进行通道归一化并应用分布灵活的子集量化(SQ)策略来缩短量化点的选择时间,并提出了一种快速的 K-means 聚类量化点选择策略。DFSQ 在保留各种超分辨率模 - 利用任务损失引导的 Lp 度量方法提高目标检测后训练量化效果
研究表明使用一个固定的超参数 p 不能达到最优的量化性能,因此提出了一种名为 DetPTQ 的框架,使用基于检测结果的适应性 p 值来选择最优量化参数。实验结果表明,DetPTQ 在 2D 和 3D 物体检测器上都比现有技术更优秀。
- Q-HyViT: 桥接块重构的混合视觉 Transformer 后训练量化
为了解决 vision transformers 在移动设备上的高计算需求问题,我们提出了一种新的 post-training quantization 方法,成功地让 efficient hybrid vision transformer - CVPR利用理论视角解决后训练量化中的振荡问题
本文通过理论和实验分析,提出了一种基于模块容量的 PTQ 无振荡量化框架,成功地解决了振荡问题,并在 ResNet-50 和 MobileNetV2 等神经网络上表现良好。
- 大型语言模型的后训练量化综合研究
通过数万次的零 - shot 实验,我们对后期训练量化 (PTQ) 的各种组成成分和效应进行了全面的研究,发现细粒度量化和 PTQ 方法是获得良好准确性所必需的,并且粗粒度量化的高比特位(例如,5 比特)比非常细粒度量化的低比特位(例如,4 - CVPRGenie:量化数据展示
该研究介绍了一种基于后训练的、使用合成数据进行零样本量化的方法,并提出了一种名为 “Genie” 的框架,用于生成适用于量化的数据,通过将它们组合,可以在不使用实际数据集的情况下获取独特的最先进的零样本量化方法。
- ECCVQFT:通过快速联合微调所有自由度进行后训练量化
提出了一种硬件意识的量化网络参数化方法 —— 量化感知微调(QFT),可以通过联合端对端微调实现一步到位的量化,获得与最优结果相当的 4 位权重量化结果。
- CVPRNoisyQuant:针对视觉 Transformer 的噪声偏置增强后训练激活量化
NoisyQuant 是一种用于视觉变换器 post-training activation 量化性能增强的量化器不可知增强方法。它的理论是,在给定量化器的情况下,添加一个固定的均匀噪声偏差可以在可证明的条件下显着降低量化误差。基于这个理论 - CVPR扩散模型的训练后量化
本文介绍了如何加速去噪扩散生成模型的生成过程,通过对去噪网络进行压缩,在不进行重新训练的情况下,将完全精度的 DM 量化为 8 位模型,并可在其他快速采样方法上使用。
- SmoothQuant:大型语言模型后训练量化的准确高效算法
SmoothQuant 是一个训练免费的精度保持、通用的后训练量化解决方案,用于大型语言模型(LLMs),通过平滑激活异常值并在权重和激活之间进行数学上等效的变换以迁移量化难度,可以实现 LLMs 的 8 位权重和激活(W8A8)量化,同时 - CPT-V:一种对视觉 Transformer 进行后训练量化的对比方法
CPT-V 提出了一种利用对比损失优化量化网络的方法,可以大幅提高已经量化过的 Vision Transformer 网络的准确率,实验结果表明,在极端量化情形下,该方法具有鲁棒性。
- 语言任务后训练量化方法的实证评估
通过分别实验评估了三种量化方法(LQ,ACIQ 和 OCS)对 BERT-Base 和 BERT-Large, 研究表明 OCS 可以将 BERT-Base 和 BERT-Large 量化为 3 位,并在 GLUE 基准测试中保持 98%和 - 触不得的易碎品:对比量化和蒸馏的稳定性以发展轻量低资源机器翻译模型
本文研究了利用共享学习通过跨多语言模型实现低资源语种机器翻译的方法,探讨了知识蒸馏和后训练量化等压缩模型的技术,并发现后训练量化在所有语种中表现更加稳定。