Sep, 2023

高效的后训练量化与 FP8 格式

TL;DR最近在深度学习方法中,如 LLMs 和 Diffusion 模型的最新进展已经带来了对改进量化方法的需求,以满足这些现代架构的计算需求,并保持精确性。为了实现这一目标,我们研究了在 75 种不同的网络架构中跨越各种任务(包括机器翻译、语言建模、文本生成、图像分类、生成和分割)的后训练量化中 FP8 数据格式的优势。我们研究了三种不同的 FP8 表示(E5M2、E4M3 和 E3M4),以研究动态范围和精度之间不同权衡程度对模型准确性的影响。基于我们广泛的研究,我们开发了一个横跨不同网络架构的量化工作流程。我们的实证结果显示,FP8 格式在多个方面(包括工作负载覆盖率 92.64% 对 65.87%、模型准确度和适用于更广泛的操作范围)优于 INT8。此外,我们的研究结果表明,E4M3 更适用于自然语言处理模型,而对于计算机视觉任务,E3M4 稍微优于 E4M3。代码公开可用于 Intel Neural Compressor: this https URL。