PreQuant: 面向预训练语言模型的任务无关量化方法
本文介绍了一种基于量化的压缩生成式语言模型的方法,该方法使用了基于 token 的对比 distillation 技术学习可区分的单词嵌入,并提出了一个基于模块的动态缩放技术,适应不同模块的量化器,实验结果表明该方法在各种任务上性能优于基准方法,并且实现了 14.4x 和 13.4x 的压缩率,与全精度模型具有可比性。
Mar, 2022
本研究提出了一种有效而实惠的后训练量化方法,ZeroQuant,用于压缩大型 Transformer-based 模型。ZeroQuant 采用细粒度硬件友好量化、层内知识蒸馏算法、优化的量化系统等三个主要组成部分,能够在尽可能减少精度损失的情况下实现模型压缩和性能提升。
Jun, 2022
本文提出了一种针对 BERT 模型的自动混合精度量化框架,可以在子组水平同时进行量化和修剪,实现了压缩模型和保持同样性能的目标,并结合 DistilBERT 等方法获得了极轻量级模型。
Dec, 2021
该论文提出了一种量化感知张量压缩训练方法,通过将 Transformer 模型的嵌入层和线性层压缩成小的低秩张量核,进一步获得低精度的模型表示进行端到端和蒸馏 - based 训练,并应用层与层的蒸馏方法将预训练的 Transformer 模型转换为量化和张量压缩的学生模型以提高收敛速度,并在两个自然语言理解任务中表现出高达 63 倍的压缩比、几乎无损的精度损失和显著的推断和训练加速。
Jun, 2023
本研究采用 Coordinate Descent(CD)技术,通过 QuantEase 分层量化框架对 Large Language Models(LLMs)进行后训练量化,包括离群值感知算法,以实现近乎 3 位量化并提高模型性能。
Sep, 2023
通过利用低秩结构以及量化参数,本论文提出了一种高性能的基于 GPU 的方法用于预训练和微调大型语言模型,以实现金融应用,并取得了较快的速度和高模型压缩比,同时保持了很高的准确率。
Feb, 2024
本文探讨了 Transformer 模型的量化问题,并给出了三种解决方法,其中一种基于 embedding group 的量化方法建立了新的量化模型,该方法可降低模型内存占用且保证了一定的精度。通过在 GLUE 基准测试中使用 BERT,我们准确评估了这些方法的有效性,并提出了一种新的超低比特宽度的 transformer 权重和 embedding 的量化方法,以实现更大的内存节省。
Sep, 2021
提出了一种新型的后训练量化框架 RepQuant,通过量化推理解耦合范式,采用复杂的量化器进行量化过程,采用简化的量化器进行推理过程,同时将量化标度重新参数化,以确保准确的量化和高效的推理,并通过集成量化权重重构进一步提高性能限制,经过广泛的实验验证在不同大规模变压器变体上在视觉、语言和多模态转换任务中取得了显著的性能优势。
Feb, 2024
对大型语言模型的量化技术进行研究,发现 4 位量化的语言模型可以在大部分基准测试中保持与非量化模型相当的性能,并且困惑度可以作为量化语言模型的代理度量。然而,量化也会影响推断速度,因此在优化解码速度和内存消耗方面需要进行大量工程努力和硬件支持。
Feb, 2024