May, 2024

ZipCache:准确高效的键值缓存量化与显著令牌识别

TL;DRZipCache 是一种用于 LLMs 的准确而高效的 KV 缓存量化方法,通过通道可分离的逐标记量化方案可显著减少量化参数的内存开销,并通过考虑注意力矩阵的下三角特性提出了规范化注意力分数作为识别重要标记的有效度量,以获得更高的压缩比,同时提供了快速生成速度和最小性能损失。