Feb, 2024

无漏洞:通过重要性感知混合精度量化实现可靠的键值缓存压缩

TL;DR通过实验证明,即使通过减少精度量化保存被清除的 KV 对中的一小部分信息,也能大大恢复引起的退化;同时,对于重要的 KV 对,必须保留较高的精度以确保生成质量。基于这些观察,我们提出了一种可靠的缓存压缩方法,即混合精度 KV 缓存(MiKV),通过将被清除的 KV 对保留在低精度以保留上下文细节,并通过将重要的 KV 对保留在高精度来确保生成质量。与其他基准相比,我们的方法在多种基准和 LLM 骨干上提供了一个最先进的压缩比和性能的权衡。