Jun, 2023

大语言模型中的权重量化激活异常值教训

TL;DR本文提出了一种后训练量化方法,可以在不损失质量的情况下,在模型中针对 weight 使用较高的精度,大大降低了模型推理需要的 GPU 数量,实现了更高的经济性。