Sep, 2023

使用 8 位浮点数进行大型语言模型的训练和推理

TL;DR本文介绍了一种用于选择 FP8 线性层缩放的方法,基于动态更新权重、梯度和激活值的每张张量尺度,用于训练和验证 GPT 和 Llama 2 等大型语言模型。