高效的后训练量化与 FP8 格式

Sep, 2023

Efficient Post-training Quantization with FP8 Formats

Haihao Shen, Naveen Mellempudi, Xin He, Qun Gao, Chang Wang...

TL;DR最近在深度学习方法中，如 LLMs 和 Diffusion 模型的最新进展已经带来了对改进量化方法的需求，以满足这些现代架构的计算需求，并保持精确性。为了实现这一目标，我们研究了在 75 种不同的网络架构中跨越各种任务（包括机器翻译、语言建模、文本生成、图像分类、生成和分割）的后训练量化中 FP8 数据格式的优势。我们研究了三种不同的 FP8 表示（E5M2、E4M3 和 E3M4），以研究动态范围和精度之间不同权衡程度对模型准确性的影响。基于我们广泛的研究，我们开发了一个横跨不同网络架构的量化工作流程。我们的实证结果显示，FP8 格式在多个方面（包括工作负载覆盖率 92.64% 对 65.87%、模型准确度和适用于更广泛的操作范围）优于 INT8。此外，我们的研究结果表明，E4M3 更适用于自然语言处理模型，而对于计算机视觉任务，E3M4 稍微优于 E4M3。代码公开可用于 Intel Neural Compressor: this https URL。

Abstract

Recent advances in deep learning methods such as LLMs and Diffusion models have created a need for improved quantization methods that can meet the computational demands of these modern architectures while maintai

deep learning methods quantization methods fp8 data formats network architectures model accuracy

发现论文，激发创造

ZeroQuant-FP: 使用浮点格式的 LLM 后训练 W4A8 量化的飞跃

使用浮点量化在大型语言模型中表现出色，尤其是 FP8 和 FP4 的浮点数，在模型参数超过十亿时性能优势更加明显。对于权重量化来说，FP4 与 INT4 相比表现出可比、甚至更好的性能，简化了在支持 FP 的硬件上部署。对于通过权重和激活之间差异引起的精度对齐开销，我们提出了两个权重量化的缩放约束条件，对性能的影响微乎其微，与标准的 W4A8 模型相比。此外，我们还结合了低秩补偿（LoRC）策略来增强量化方法，特别适用于较小的模型。研究结果强调了浮点量化在大型语言模型中的巨大潜力，为资源受限环境中的高效部署铺平了道路。

Jul, 2023

FP8 量化：指数的力量

本研究深入探究了采用浮点数格式（FP8）进行神经网络量化的性能优势，分析了尾数和指数位数选择对性能的影响，并通过大量实验证明，相对于 INT8 格式，FP8 格式具有更高的精度和更优的性能。

Aug, 2022

FP8-BERT：Transformer 的后训练量化

本文通过对 GLUE 和 SQuAD v1.1 数据集上的 BERT 变种进行大量实验，验证了 FP8 作为一种进行后训练量化的有效方式，能够在不显著损失精度的情况下提高准确性。

Dec, 2023

整数还是浮点数？大语言模型低比特量化的新展望

本研究比较研究了 INT 和 FP 低位量化在 LLMs 中的优劣，发现由于张量分布的复杂性和异质性，最优量化格式因层而异，提出了 MoFQ，这种简单易行的方法在各种任务中取得了最新的最佳结果，并且在不引入硬件开销的情况下具有显著的性能改进。

May, 2023

使用 8 位浮点数进行大型语言模型的训练和推理

本文介绍了一种用于选择 FP8 线性层缩放的方法，基于动态更新权重、梯度和激活值的每张张量尺度，用于训练和验证 GPT 和 Llama 2 等大型语言模型。

Sep, 2023

FP8-LM：训练 FP8 大型语言模型

我们探索了 FP8 低位数据格式以实现大规模语言模型（LLM）的高效训练。我们提出了一种新的 FP8 自动混合精度框架，可以在递增的方式下渐进地应用 8 位梯度、优化器状态和分布式学习。实验证明，在 H100 GPU 平台上使用我们的 FP8 混合精度训练框架，与广泛采用的 BF16 框架相比，GPT-175B 模型的训练不仅可以实现 42% 的实际内存使用降低，而且运行速度比 Nvidia Transformer Engine 快 64%，超过其 17%。此外，我们的 FP8 混合精度训练方法具有通用性，可以无缝应用于 LLM 指导调优、带有人类反馈的强化学习等任务，节省了微调开销。

Oct, 2023

FPTQ：大型语言模型的细粒度后训练量化

本研究提出了一种新的基于 W4A8 的后训练量化方法，结合了现有的两种技术的优势，实现了 4 位权重量化和 8 位矩阵计算加速，在多个标准基准测试中获得最新的 W4A8 量化性能，为大型语言模型的实际应用提供了可能。

Aug, 2023

LLM-FP4: 4 位浮点数量化变压器

我们提出了 LLM-FP4，在训练后将大型语言模型（LLM）的权重和激活量化为 4 位浮点数值。

Oct, 2023

F8Net: 仅限定点 8 位乘法用于网络量化

F8Net 是一种完全由固定点 8 位乘法构成的量化框架，可以降低神经网络量化模型与完全精度模型之间的性能差距，并显著降低内存占用和能源消耗。

Feb, 2022

ZeroQuant (4+2): 通过一种基于 FP6 的新策略重新定义 LLMs 量化，用于不同的生成任务

本研究审查了大型语言模型中的 4 位量化方法，重点关注 GPTQ 在零样本任务中的过拟合问题和限制。我们扩展了任务范围，涵盖了生成类别，如代码生成和抽象概括，发现 INT4 量化在其中显著性能不佳。然而，转向高精度格式如 FP6 却面临挑战，因为现有 AI 硬件上缺乏复杂的集成和系统加速策略导致性能较差，常被忽视。实验结果显示，FP6，即便采用粗粒度的量化方案，也能在各种算法和任务上表现出色，展示了它在准确性和多功能性方面的优势。值得注意的是，使用 FP6 量化，codestar-15B 模型在代码生成方面表现与其 FP16 对等，对于较小的模型如 406M，与摘要生成的基准模型非常接近，而 INT4 无法达到这种性能。为了更好适应各种 AI 硬件并实现最佳系统性能，我们提出了一种用于 FP6 的新颖 4+2 设计，以达到与最先进的 INT4 精细的量化相似的时延。通过我们的设计，FP6 可以成为当前 LLMs 中使用的 4 位量化方法的有希望的解决方案。

Dec, 2023