May, 2024

整数量化尺度:加速低位宽量化LLM的免费午餐

TL;DR我们介绍了一种新的后训练量化方案——整数比例,它有效地解决了当前细粒度量化方法中的推理瓶颈问题,同时保持了类似的准确性。整数比例不需要额外的校准或微调,从而避免了额外成本。它可以与大多数细粒度量化方法直接使用,最多可使原始模型的端到端速度提升1.85倍,并且能够解决Mixtral-8x7B和LLaMA-3模型的量化困难,几乎不降低性能,并分别相对于它们的FP16版本提供2.13倍和2.31倍的端到端速度提升。