从学生中学习：应用 t - 分布来探索 LLM 的准确和高效格式

ICMLMay, 2024

从学生中学习：应用 t - 分布来探索 LLM 的准确和高效格式

Learning from Students: Applying t-Distributions to Explore Accurate and Efficient Formats for LLMs

Jordan Dotzel, Yuzong Chen, Bahaa Kotb, Sushma Prasad, Gang Wu...

TL;DR使用大规模分析，我们得出结论：大多数分布遵循 t 分布。由此，我们推导出基于该分布的新型格式 -- Student Float（SF4），其相较于 Normal Float（NF4）可提高现代大语言模型的平均准确率。接着，我们提出通过增加两种超正常支持的方式来改进 E2M1 模型，进一步增强其准确率。最后，我们评估了 11 种数据类型的模型准确率和硬件复杂度，并发现 INT4、E2M1 和具有超正常支持的 E2M1 组成了一个帕累托曲线，可在模型准确率和芯片面积之间进行连续权衡，从而在 1.22％的面积开销下将 Phi-2 的准确率提高了高达 2.19％。

Abstract

large language models (LLMs) have recently achieved state-of-the-art performance across various tasks, yet due to their large computational requirements, they struggle with strict latency and power demands. Deep neural network (DNN) quantization has traditionally addressed these limita

large language models dnn quantization normal float student float supernormal support

发现论文，激发创造

高效的后训练量化与 FP8 格式

最近在深度学习方法中，如 LLMs 和 Diffusion 模型的最新进展已经带来了对改进量化方法的需求，以满足这些现代架构的计算需求，并保持精确性。为了实现这一目标，我们研究了在 75 种不同的网络架构中跨越各种任务（包括机器翻译、语言建模、文本生成、图像分类、生成和分割）的后训练量化中 FP8 数据格式的优势。我们研究了三种不同的 FP8 表示（E5M2、E4M3 和 E3M4），以研究动态范围和精度之间不同权衡程度对模型准确性的影响。基于我们广泛的研究，我们开发了一个横跨不同网络架构的量化工作流程。我们的实证结果显示，FP8 格式在多个方面（包括工作负载覆盖率 92.64% 对 65.87%、模型准确度和适用于更广泛的操作范围）优于 INT8。此外，我们的研究结果表明，E4M3 更适用于自然语言处理模型，而对于计算机视觉任务，E3M4 稍微优于 E4M3。代码公开可用于 Intel Neural Compressor: this https URL。

Sep, 2023

ZeroQuant-FP: 使用浮点格式的 LLM 后训练 W4A8 量化的飞跃

使用浮点量化在大型语言模型中表现出色，尤其是 FP8 和 FP4 的浮点数，在模型参数超过十亿时性能优势更加明显。对于权重量化来说，FP4 与 INT4 相比表现出可比、甚至更好的性能，简化了在支持 FP 的硬件上部署。对于通过权重和激活之间差异引起的精度对齐开销，我们提出了两个权重量化的缩放约束条件，对性能的影响微乎其微，与标准的 W4A8 模型相比。此外，我们还结合了低秩补偿（LoRC）策略来增强量化方法，特别适用于较小的模型。研究结果强调了浮点量化在大型语言模型中的巨大潜力，为资源受限环境中的高效部署铺平了道路。

Jul, 2023

LLM-FP4: 4 位浮点数量化变压器

我们提出了 LLM-FP4，在训练后将大型语言模型（LLM）的权重和激活量化为 4 位浮点数值。

Oct, 2023

通过支撑和质量均衡设计三元神经网络量化的强基准线

本研究探讨深度神经网络的量化，并设计 TQuant 和 MQuant 两个操作符以最大化最小化的误差从而显著提高性能。

Jun, 2023

规范微调：大型语言模型的高性能低位量化

在本文中，我们介绍了一种称为 norm tweaking 的技术，可以作为当前 PTQ 方法的插件使用，以实现高精度并且具有成本效益的模型压缩。通过校准数据生成和通道级距离约束来更新归一化层的权重，我们的方法在权重量化和权重与激活联合量化方面取得了显著的改进，在 2 位量化情况下甚至达到与浮点数模型相同的精度水平。我们的简单有效的方法使其在实际应用中更加实用。

Sep, 2023

通过权重和激活量化提升大型语言模型的计算效率

该研究探讨了大型语言模型的后训练量化，特别是 4 位权重和 8 位激活（W4A8）量化，以提高计算效率，介绍了激活量化感知的缩放（AQAS）和序列长度感知的校准（SLAC）等创新技术，并引入了整数和非规格化表示的混合数据格式（dINT）来解决 W4A8 量化中的下溢问题，并通过对 LLMs 的严格评估证明这些技术显著提高了任务准确度，并且与完整精度模型相当，通过与 dINT 兼容的算术单元的开发，进一步证实了该方法相对于 8 位整数 MAC 单元可以提升 2 倍硬件效率。

Nov, 2023

TernaryLLM：三值化大型语言模型

应用三值化和离群值友好特征知识蒸馏，我们提出了可学习的双向三值化方法，该方法在大型语言模型上表现优异，超越了其他低位量化方法，并在 C4 数据集上降低了困惑度，并在零样本任务的平均准确率上提高了 8.2%。

Jun, 2024

AFPQ: 非对称浮点量化用于 LLMs

通过使用不对称 FP 量化方法，我们提出了一种改进的量化方法，可以在大语言模型中提高准确性，且无需额外存储空间。

Nov, 2023

整数还是浮点数？大语言模型低比特量化的新展望

本研究比较研究了 INT 和 FP 低位量化在 LLMs 中的优劣，发现由于张量分布的复杂性和异质性，最优量化格式因层而异，提出了 MoFQ，这种简单易行的方法在各种任务中取得了最新的最佳结果，并且在不引入硬件开销的情况下具有显著的性能改进。

May, 2023

ZeroQuant (4+2): 通过一种基于 FP6 的新策略重新定义 LLMs 量化，用于不同的生成任务

本研究审查了大型语言模型中的 4 位量化方法，重点关注 GPTQ 在零样本任务中的过拟合问题和限制。我们扩展了任务范围，涵盖了生成类别，如代码生成和抽象概括，发现 INT4 量化在其中显著性能不佳。然而，转向高精度格式如 FP6 却面临挑战，因为现有 AI 硬件上缺乏复杂的集成和系统加速策略导致性能较差，常被忽视。实验结果显示，FP6，即便采用粗粒度的量化方案，也能在各种算法和任务上表现出色，展示了它在准确性和多功能性方面的优势。值得注意的是，使用 FP6 量化，codestar-15B 模型在代码生成方面表现与其 FP16 对等，对于较小的模型如 406M，与摘要生成的基准模型非常接近，而 INT4 无法达到这种性能。为了更好适应各种 AI 硬件并实现最佳系统性能，我们提出了一种用于 FP6 的新颖 4+2 设计，以达到与最先进的 INT4 精细的量化相似的时延。通过我们的设计，FP6 可以成为当前 LLMs 中使用的 4 位量化方法的有希望的解决方案。

Dec, 2023