Oct, 2023

FP8-LM:训练 FP8 大型语言模型

TL;DR我们探索了 FP8 低位数据格式以实现大规模语言模型(LLM)的高效训练。我们提出了一种新的 FP8 自动混合精度框架,可以在递增的方式下渐进地应用 8 位梯度、优化器状态和分布式学习。实验证明,在 H100 GPU 平台上使用我们的 FP8 混合精度训练框架,与广泛采用的 BF16 框架相比,GPT-175B 模型的训练不仅可以实现 42% 的实际内存使用降低,而且运行速度比 Nvidia Transformer Engine 快 64%,超过其 17%。此外,我们的 FP8 混合精度训练方法具有通用性,可以无缝应用于 LLM 指导调优、带有人类反馈的强化学习等任务,节省了微调开销。