FP8-LM：训练 FP8 大型语言模型

Oct, 2023

FP8-LM: Training FP8 Large Language Models

Houwen Peng, Kan Wu, Yixuan Wei, Guoshuai Zhao, Yuxiang Yang...

TL;DR我们探索了 FP8 低位数据格式以实现大规模语言模型（LLM）的高效训练。我们提出了一种新的 FP8 自动混合精度框架，可以在递增的方式下渐进地应用 8 位梯度、优化器状态和分布式学习。实验证明，在 H100 GPU 平台上使用我们的 FP8 混合精度训练框架，与广泛采用的 BF16 框架相比，GPT-175B 模型的训练不仅可以实现 42% 的实际内存使用降低，而且运行速度比 Nvidia Transformer Engine 快 64%，超过其 17%。此外，我们的 FP8 混合精度训练方法具有通用性，可以无缝应用于 LLM 指导调优、带有人类反馈的强化学习等任务，节省了微调开销。

Abstract

In this paper, we explore fp8 low-bit data formats for efficient training of large language models (LLMs). Our key insight is that most variables, such as gradients and optimizer states, in LLM training can emplo

fp8 low-bit data formats large language models automatic mixed-precision framework training costs fine-tuning expenses

发现论文，激发创造

使用 8 位浮点数进行大型语言模型的训练和推理

本文介绍了一种用于选择 FP8 线性层缩放的方法，基于动态更新权重、梯度和激活值的每张张量尺度，用于训练和验证 GPT 和 Llama 2 等大型语言模型。

Sep, 2023

从 FP8 回到 FP 减少精度对 LLM 训练稳定性的效果量化

降低精度的浮点表示在大型语言模型（LLM）训练中的稳定性及经济性的调查和分析。

May, 2024

高效的后训练量化与 FP8 格式

最近在深度学习方法中，如 LLMs 和 Diffusion 模型的最新进展已经带来了对改进量化方法的需求，以满足这些现代架构的计算需求，并保持精确性。为了实现这一目标，我们研究了在 75 种不同的网络架构中跨越各种任务（包括机器翻译、语言建模、文本生成、图像分类、生成和分割）的后训练量化中 FP8 数据格式的优势。我们研究了三种不同的 FP8 表示（E5M2、E4M3 和 E3M4），以研究动态范围和精度之间不同权衡程度对模型准确性的影响。基于我们广泛的研究，我们开发了一个横跨不同网络架构的量化工作流程。我们的实证结果显示，FP8 格式在多个方面（包括工作负载覆盖率 92.64% 对 65.87%、模型准确度和适用于更广泛的操作范围）优于 INT8。此外，我们的研究结果表明，E4M3 更适用于自然语言处理模型，而对于计算机视觉任务，E3M4 稍微优于 E4M3。代码公开可用于 Intel Neural Compressor: this https URL。

Sep, 2023

FP8-BERT：Transformer 的后训练量化

本文通过对 GLUE 和 SQuAD v1.1 数据集上的 BERT 变种进行大量实验，验证了 FP8 作为一种进行后训练量化的有效方式，能够在不显著损失精度的情况下提高准确性。

Dec, 2023

ZeroQuant-FP: 使用浮点格式的 LLM 后训练 W4A8 量化的飞跃

使用浮点量化在大型语言模型中表现出色，尤其是 FP8 和 FP4 的浮点数，在模型参数超过十亿时性能优势更加明显。对于权重量化来说，FP4 与 INT4 相比表现出可比、甚至更好的性能，简化了在支持 FP 的硬件上部署。对于通过权重和激活之间差异引起的精度对齐开销，我们提出了两个权重量化的缩放约束条件，对性能的影响微乎其微，与标准的 W4A8 模型相比。此外，我们还结合了低秩补偿（LoRC）策略来增强量化方法，特别适用于较小的模型。研究结果强调了浮点量化在大型语言模型中的巨大潜力，为资源受限环境中的高效部署铺平了道路。

Jul, 2023

FinGPT-HPC: 高性能计算在金融应用中高效地预训练和微调大型语言模型

通过利用低秩结构以及量化参数，本论文提出了一种高性能的基于 GPU 的方法用于预训练和微调大型语言模型，以实现金融应用，并取得了较快的速度和高模型压缩比，同时保持了很高的准确率。

Feb, 2024

使用 8 位浮点数进行混合精度训练

本文介绍了一个使用 8 位浮点表示法训练深度神经网络的方法，减少计算精度和主权重复制的精度要求，并且通过强化误差传播和降低量化噪声的方法来提高模型性能。实验表明，所提出方法在多个数据集和不同工作负载下与精度基线相比不降反升。

May, 2019

了解后训练量化对大规模语言模型的影响

大型语言模型中的参数数量、量化、超参数和推理速度的研究分析

Sep, 2023

INT-FP-QSim：大型语言模型和视觉变换器的混合精度和格式

最近大规模语言模型 (LLMs) 的兴起导致了对降低精度的 LLMs 的增加，为了解决资源限制和促进民主化进程，我们提出了 INT-FP-QSim: 一个开源模拟器，可以在不同的数值精度和格式下灵活评估 LLMs 和视觉转换器。通过我们的模拟器，我们调查了不同数值格式对 4 位权重和 4 位或 8 位激活的 LLMs 和视觉转换器性能的影响，并比较了 Adaptive Block Floating Point、SmoothQuant、GPTQ 和 RPTQ 等最近提出的方法在模型性能上的表现。我们希望 INT-FP-QSim 能够使研究人员灵活地模拟不同精度的模型，以支持进一步的 LLMs 和视觉转换器的量化研究。

Jul, 2023

LLM-FP4: 4 位浮点数量化变压器

我们提出了 LLM-FP4，在训练后将大型语言模型（LLM）的权重和激活量化为 4 位浮点数值。

Oct, 2023