Nov, 2022

SmoothQuant:大型语言模型后训练量化的准确高效算法

TL;DRSmoothQuant 是一个训练免费的精度保持、通用的后训练量化解决方案,用于大型语言模型(LLMs),通过平滑激活异常值并在权重和激活之间进行数学上等效的变换以迁移量化难度,可以实现 LLMs 的 8 位权重和激活(W8A8)量化,同时提高硬件效率,以较小的精度损失实现高达 2 倍的内存减少和 1.56 倍的加速,是一个可降低硬件成本、民主化 LLMs 的一站式解决方案。