Mar, 2024

Jetfire:使用 INT8 数据流和每块量化实现高效准确的 Transformer 预训练

TL;DRJetfire 提出了一种高效准确的 INT8 预训练方法,通过 INT8 数据流优化内存访问和每个块的量化方法来实现与 FP16 基线相当的准确性,且相对于 FP16 基线,提供了 1.42 倍的训练加速和 1.49 倍的内存减少。