重新思考通道维度，以隔离大型语言模型低比特权重量化中的异常值

Sep, 2023

重新思考通道维度，以隔离大型语言模型低比特权重量化中的异常值

Rethinking Channel Dimensions to Isolate Outliers for Low-bit Weight Quantization of Large Language Models

Jung Hwan Heo, Jeonghoon Kim, Beomseok Kwon, Byeongwook Kim, Se Jung Kwon...

TL;DR大型语言模型（LLMs）在各种任务中取得了显著的成功，但在小批量推断设置下（例如移动设备），有效地为 LLMs 提供服务一直是一个挑战，因为其存在着大量的内存瓶颈。本文提出了一种量化方案，即基于权重的量化，但是 sub-4 bit 量化仍然是一个挑战，因为存在大幅度的激活异常值。为了减轻不良的异常值效应，我们首先提出了 per-IC 量化，这是一种简单而有效的方法，它在每个输入通道（IC）内创建量化组，而不是传统的每个输出通道（OC）。然后，我们提出了 AdaDim，这是一种可以适应各种权重敏感性模式的多功能量化框架。通过对先前的方法进行改进，如 Round-To-Nearest 和 GPTQ，我们展示了 AdaDim 的有效性，在基础的语言建模基准测试和指导性调优的 LLMs 中都取得了显著的改进效果（在 MMLU 上最高 + 4.7%，在 HumanEval 上最高 + 10%）。

Abstract

large language models (LLMs) have recently demonstrated a remarkable success across various tasks. However, efficiently serving LLMs has been a challenge due to its large memory bottleneck, specifically in small

large language models memory bottleneck weight-only quantization per-ic quantization adaptive dimensions

发现论文，激发创造

使用激活正则化减轻离群通道对于语言模型量化的影响

准确的量化是语言模型的关键问题之一，我们研究了激活量化中的异常通道现象，并提出了一种调节输入和输出的策略，通过量化感知训练和激活峰度正则化来实现精确的 4 位参数量化。与权重后训练量化相结合，我们的方法可以获得与标准精度基准相竞争的 W4A4 模型。

Apr, 2024

大语言模型中的权重量化激活异常值教训

本文提出了一种后训练量化方法，可以在不损失质量的情况下，在模型中针对 weight 使用较高的精度，大大降低了模型推理需要的 GPU 数量，实现了更高的经济性。

Jun, 2023

QLLM：用于大型语言模型的准确高效低比特量化

通过自适应通道重组技术，QLLM 提出了一种准确高效的低精度模型量化方法，实现了对大规模语言模型的低精度量化，并在 LLaMA-2 上相较于之前最先进的方法提高了 7.89% 的平均准确率。

Oct, 2023

OutlierTune: 大语言模型的高效通道量化

OutlierTune 是一种针对 LLMs 激活的高效后训练量化方法，它通过预执行去量化和对称化两个组件，解决了大规模语言模型的激活量化准确性和硬件效率问题。

Jun, 2024

通过权重和激活量化提升大型语言模型的计算效率

该研究探讨了大型语言模型的后训练量化，特别是 4 位权重和 8 位激活（W4A8）量化，以提高计算效率，介绍了激活量化感知的缩放（AQAS）和序列长度感知的校准（SLAC）等创新技术，并引入了整数和非规格化表示的混合数据格式（dINT）来解决 W4A8 量化中的下溢问题，并通过对 LLMs 的严格评估证明这些技术显著提高了任务准确度，并且与完整精度模型相当，通过与 dINT 兼容的算术单元的开发，进一步证实了该方法相对于 8 位整数 MAC 单元可以提升 2 倍硬件效率。

Nov, 2023

AWQ：激活感知权重量化用于低限制存储压缩和加速

提出了一种基于激活函数的、硬件友好型的低比特权重量化方法。该方法可以保护神经网络的关键权重并保持其泛化能力，在不影响硬件效率的前提下，有效降低了语言模型部署的成本。

Jun, 2023

Outlier Suppression+: 大型语言模型的等效最佳移位和缩放准确量化

提出一种 Outlier Suppression + 的框架，其中采用了 channel-wise shifting 技术和 scaling 操作用于消除 transformer 语言模型中的异常值，并通过实验表明该框架在 8 比特和 6 比特设置下能够在不降低性能的前提下实现近似浮点性能水平，在 4 比特 BERT 上实现了新的最优性能。

Apr, 2023

规范微调：大型语言模型的高性能低位量化

在本文中，我们介绍了一种称为 norm tweaking 的技术，可以作为当前 PTQ 方法的插件使用，以实现高精度并且具有成本效益的模型压缩。通过校准数据生成和通道级距离约束来更新归一化层的权重，我们的方法在权重量化和权重与激活联合量化方面取得了显著的改进，在 2 位量化情况下甚至达到与浮点数模型相同的精度水平。我们的简单有效的方法使其在实际应用中更加实用。

Sep, 2023

FineQuant: 低精度量化后全连接网络权重细粒度优化

为了解决大型语言模型在实际应用中的内存需求和推断成本的问题，我们提出了一种高效的仅权重量化方法，通过减少内存消耗和加速推断来实现。我们引入了一种简单而有效的启发式方法，仅利用预训练模型的模型权重来确保最小质量降低。该方法适用于混合专家模型和密集模型，并且无需额外的微调。通过分析量化大型语言模型的挑战和问题，并采用自适应的量化粒度进行解决，我们展示了我们提出的方法的有效性。此外，我们实现了高效的 GPU 矩阵乘法和解量化算法，支持 fp16 或 bf16 激活与 int8 或 int4 权重的乘法。我们在 OPT-175B 和内部混合专家模型等大规模开源模型上评估了我们的方法，展示了最小的准确性损失，并在相同数量的 GPU 上实现了高达 3.65 倍的吞吐量。

Aug, 2023

I-LLM：针对完全量化低位大型语言模型的高效整数推断

该研究论文通过提出一种新型的整数化后训练量化框架 (I-LLM)，解决了大语言模型在部署边缘和云设备上仍需要大量浮点运算的问题。实验证明，I-LLM 在保持准确性的前提下，可以以 W4A4 进行操作，优于其他非整数量化方法。

May, 2024