Feb, 2024

KIVI:一种用于 KV 缓存的无需调节的非对称 2 位量化

TL;DR通过深入研究大语言模型中关键 - 值缓存的元素分布,我们提出了一个调优无需任何参数的 2 位关键 - 值缓存量化算法,名为 KIVI。KIVI 可以使 Llama (Llama-2), Falcon, 和 Mistral 模型在几乎不减少质量的同时,使用 2.6 倍的峰值内存,从而实现高达 4 倍的批处理大小,进一步提高 2.35 到 3.47 倍的真实大语言模型推理负载吞吐量。