Nov, 2022
SmoothQuant:大型语言模型后训练量化的准确高效算法
SmoothQuant: Accurate and Efficient Post-Training Quantization for Large
Language Models
TL;DRSmoothQuant是一个训练免费的精度保持、通用的后训练量化解决方案,用于大型语言模型(LLMs),通过平滑激活异常值并在权重和激活之间进行数学上等效的变换以迁移量化难度,可以实现LLMs的8位权重和激活(W8A8)量化,同时提高硬件效率,以较小的精度损失实现高达2倍的内存减少和1.56倍的加速,是一个可降低硬件成本、民主化LLMs的一站式解决方案。