May, 2024

整数量化尺度:加速低位宽量化 LLM 的免费午餐

TL;DR我们介绍了一种新的后训练量化方案 —— 整数比例,它有效地解决了当前细粒度量化方法中的推理瓶颈问题,同时保持了类似的准确性。整数比例不需要额外的校准或微调,从而避免了额外成本。它可以与大多数细粒度量化方法直接使用,最多可使原始模型的端到端速度提升 1.85 倍,并且能够解决 Mixtral-8x7B 和 LLaMA-3 模型的量化困难,几乎不降低性能,并分别相对于它们的 FP16 版本提供 2.13 倍和 2.31 倍的端到端速度提升。