探索蛋白质语言模型的后训练量化
本论文通过对 PTQ 技术在 11 个模型家族的综合评估,系统总结了量化对权重、激活函数和 KV Cache 的影响,提供了应用量化技术的建议,指出了未来的研究方向。
Feb, 2024
SmoothQuant 是一个训练免费的精度保持、通用的后训练量化解决方案,用于大型语言模型(LLMs),通过平滑激活异常值并在权重和激活之间进行数学上等效的变换以迁移量化难度,可以实现 LLMs 的 8 位权重和激活(W8A8)量化,同时提高硬件效率,以较小的精度损失实现高达 2 倍的内存减少和 1.56 倍的加速,是一个可降低硬件成本、民主化 LLMs 的一站式解决方案。
Nov, 2022
本研究采用 Coordinate Descent(CD)技术,通过 QuantEase 分层量化框架对 Large Language Models(LLMs)进行后训练量化,包括离群值感知算法,以实现近乎 3 位量化并提高模型性能。
Sep, 2023
通过 quantization 技术,结合 SmoothQuant 和 GPTQ 两种 post-training 技术,将模型量化为 MX 格式,能够显著减小优化型模型大小至多 4 倍,提高 LLaMA 模型大小至多 3 倍,同时仅仅增加 1-3% 的困惑度。
May, 2024
通过自适应通道重组技术,QLLM 提出了一种准确高效的低精度模型量化方法,实现了对大规模语言模型的低精度量化,并在 LLaMA-2 上相较于之前最先进的方法提高了 7.89% 的平均准确率。
Oct, 2023
该研究探讨了大型语言模型的后训练量化,特别是 4 位权重和 8 位激活(W4A8)量化,以提高计算效率,介绍了激活量化感知的缩放(AQAS)和序列长度感知的校准(SLAC)等创新技术,并引入了整数和非规格化表示的混合数据格式(dINT)来解决 W4A8 量化中的下溢问题,并通过对 LLMs 的严格评估证明这些技术显著提高了任务准确度,并且与完整精度模型相当,通过与 dINT 兼容的算术单元的开发,进一步证实了该方法相对于 8 位整数 MAC 单元可以提升 2 倍硬件效率。
Nov, 2023
大型语言模型的研究中,Mixture-of-Experts(MoE)方法通过稀疏激活以更少的计算 FLOPs 实现了对 LLMs 的有效扩展,但是由于显著的内存开销,在直接应用于 MoE 模型时,后训练量化的常规方法效果较差。本文所做工作在多个维度对 MoE 结构感知的量化启发式方法进行了探索,包括从粗到细粒度、从 MoE 块到单个线性权重。研究结果揭示了关键原则:不同的 MoE 结构(如块、专家、线性层)需要不同数量的权重位数以实现有效和高效的量化。通过对两个典型 MoE 模型和六个任务进行广泛的基准测试来支持所得结论。同时,我们还引入了一些新的增强方法,以更准确地识别 MoE 量化中需要更高位数分配的关键权重,包括线性权重异常得分器和 MoE 块得分器。此外,后续实验还验证了我们在权重和激活量化方面的发现。
Jun, 2024
本文提出了一种新的基于重新排序的量化方法 RPTQ,用于解决大规模语言模型序列的激活范围之间的不同,从而将其缩小到 3 位激活,减少存储和计算的开销。
Apr, 2023
通过数万次的零 - shot 实验,我们对后期训练量化 (PTQ) 的各种组成成分和效应进行了全面的研究,发现细粒度量化和 PTQ 方法是获得良好准确性所必需的,并且粗粒度量化的高比特位(例如,5 比特)比非常细粒度量化的低比特位(例如,4 比特)更强大。
Mar, 2023
CDQuant 是一个简单且可扩展的替代 GPTQ 的算法,使用坐标下降法来实现高质量的量化权重,通过在 PaLM2 模型系列上进行广泛评估,我们证明 CDQuant 在各种模型规模和量化级别下始终优于 GPTQ。
Jun, 2024