OutlierTune: 大语言模型的高效通道量化
通过自适应通道重组技术,QLLM 提出了一种准确高效的低精度模型量化方法,实现了对大规模语言模型的低精度量化,并在 LLaMA-2 上相较于之前最先进的方法提高了 7.89% 的平均准确率。
Oct, 2023
提出一种 Outlier Suppression + 的框架,其中采用了 channel-wise shifting 技术和 scaling 操作用于消除 transformer 语言模型中的异常值,并通过实验表明该框架在 8 比特和 6 比特设置下能够在不降低性能的前提下实现近似浮点性能水平,在 4 比特 BERT 上实现了新的最优性能。
Apr, 2023
本文提出了一种后训练量化方法,可以在不损失质量的情况下,在模型中针对 weight 使用较高的精度,大大降低了模型推理需要的 GPU 数量,实现了更高的经济性。
Jun, 2023
准确的量化是语言模型的关键问题之一,我们研究了激活量化中的异常通道现象,并提出了一种调节输入和输出的策略,通过量化感知训练和激活峰度正则化来实现精确的 4 位参数量化。与权重后训练量化相结合,我们的方法可以获得与标准精度基准相竞争的 W4A4 模型。
Apr, 2024
我们的研究着重于发现 Transformer-based 模型在后训练线性量化过程中准确性下降的潜在原因,并提出了一种适用于量化的微调方法 QuantTune。该方法通过根据异常激活的偏差调整权重,有效控制了有问题激活的动态范围,从而在几种 Transformer-based 模型中实现了显著的后训练量化的改进。
Mar, 2024
SmoothQuant 是一个训练免费的精度保持、通用的后训练量化解决方案,用于大型语言模型(LLMs),通过平滑激活异常值并在权重和激活之间进行数学上等效的变换以迁移量化难度,可以实现 LLMs 的 8 位权重和激活(W8A8)量化,同时提高硬件效率,以较小的精度损失实现高达 2 倍的内存减少和 1.56 倍的加速,是一个可降低硬件成本、民主化 LLMs 的一站式解决方案。
Nov, 2022
大型语言模型(LLMs)在各种任务中取得了显著的成功,但在小批量推断设置下(例如移动设备),有效地为 LLMs 提供服务一直是一个挑战,因为其存在着大量的内存瓶颈。本文提出了一种量化方案,即基于权重的量化,但是 sub-4 bit 量化仍然是一个挑战,因为存在大幅度的激活异常值。为了减轻不良的异常值效应,我们首先提出了 per-IC 量化,这是一种简单而有效的方法,它在每个输入通道(IC)内创建量化组,而不是传统的每个输出通道(OC)。然后,我们提出了 AdaDim,这是一种可以适应各种权重敏感性模式的多功能量化框架。通过对先前的方法进行改进,如 Round-To-Nearest 和 GPTQ,我们展示了 AdaDim 的有效性,在基础的语言建模基准测试和指导性调优的 LLMs 中都取得了显著的改进效果(在 MMLU 上最高 + 4.7%,在 HumanEval 上最高 + 10%)。
Sep, 2023
本文提出了一种新的基于重新排序的量化方法 RPTQ,用于解决大规模语言模型序列的激活范围之间的不同,从而将其缩小到 3 位激活,减少存储和计算的开销。
Apr, 2023
在本文中,我们介绍了一种称为 norm tweaking 的技术,可以作为当前 PTQ 方法的插件使用,以实现高精度并且具有成本效益的模型压缩。通过校准数据生成和通道级距离约束来更新归一化层的权重,我们的方法在权重量化和权重与激活联合量化方面取得了显著的改进,在 2 位量化情况下甚至达到与浮点数模型相同的精度水平。我们的简单有效的方法使其在实际应用中更加实用。
Sep, 2023
提出了 SmoothQuant + 方法,它是一种准确而高效的 4 位权重量化方法,能够无损地减小大语言模型的内存开销,并且在精确度上没有损失。通过 SmoothQuant+,Code Llama-34B 模型能够在一张 A100 40GB GPU 上实现无损的准确度,并且相较于在两张 A100 40GB GPUs 上部署的 FP16 模型,能够提高 1.9 至 4.0 倍的吞吐量,每个 token 的延迟仅为 FP16 模型的 68%。这是已知的大语言模型 4 位权重量化的最先进方法。
Dec, 2023