SKVQ:用于大语言模型的滑动窗口键值缓存量化
提出了 QAQ,一种针对 KV 缓存的质量自适应量化方案,通过集成专用的异常值处理和改进的注意力感知方法,QAQ 在对模型性能几乎没有影响的情况下,实现了 KV 缓存大小最大 10 倍的压缩比,显著减少了部署 LLM 的实际困境,并为更长上下文应用开辟了新的可能性。
Mar, 2024
该论文提出了一种针对大型语言模型的量化方法,即使用 WKVQuant 框架对权重和关键 / 值(KV)缓存进行量化,通过过去量化改进注意力计算,并引入二维量化策略处理 KV 缓存分布,结合跨块重构正则化进行参数优化,实验证明 WKVQuant 能够几乎实现与权重 - 激活量化相当的内存节省,并接近仅权重量化的性能。
Feb, 2024
LLMs 在大文本分析和摘要等需要大上下文窗口的应用中得到越来越广泛的应用,KV 缓存激活成为推断过程中存储器占用的主要贡献者。本研究通过引入新颖的方法对缓存的 KV 激活进行量化,包括:(i)通道关键激活量化,(ii)Rotary 位置嵌入本地化量化,(iii)非均匀 KV 缓存量化,(iv)向量稠密稀疏量化,和(v)Q-Norm。通过将这些方法应用于 LLaMA、LLaMA-2 和 Mistral 模型,我们在 Wikitext-2 和 C4 数据集上使用 3 位量化实现了小于 0.1 的困惑度退化,优于现有方法。我们的方法使得在单个 A100-80GB GPU 上可以为 LLaMA-7B 模型提供长达 100 万的上下文长度,而在 8-GPU 系统上可以提供长达 1000 万的上下文长度。
Jan, 2024
通过 Coupled Quantization (CQ) 技术,我们能够更信息效率地对大模型 (Large Language Models) 的 KV 缓存进行压缩,从而提高效率并保持模型质量。
May, 2024
通过深入研究大语言模型中关键 - 值缓存的元素分布,我们提出了一个调优无需任何参数的 2 位关键 - 值缓存量化算法,名为 KIVI。KIVI 可以使 Llama (Llama-2), Falcon, 和 Mistral 模型在几乎不减少质量的同时,使用 2.6 倍的峰值内存,从而实现高达 4 倍的批处理大小,进一步提高 2.35 到 3.47 倍的真实大语言模型推理负载吞吐量。
Feb, 2024
SnapKV 是一种创新且无需微调的方法,它通过选择每个注意力头的重要键值位置来高效地减小键值存储缓存的大小,从而在处理长输入序列时显著降低了计算开销和内存占用,同时保持了与基准模型相当的性能。
Apr, 2024
通过实验证明,即使通过减少精度量化保存被清除的 KV 对中的一小部分信息,也能大大恢复引起的退化;同时,对于重要的 KV 对,必须保留较高的精度以确保生成质量。基于这些观察,我们提出了一种可靠的缓存压缩方法,即混合精度 KV 缓存(MiKV),通过将被清除的 KV 对保留在低精度以保留上下文细节,并通过将重要的 KV 对保留在高精度来确保生成质量。与其他基准相比,我们的方法在多种基准和 LLM 骨干上提供了一个最先进的压缩比和性能的权衡。
Feb, 2024
ZipCache 是一种用于 LLMs 的准确而高效的 KV 缓存量化方法,通过通道可分离的逐标记量化方案可显著减少量化参数的内存开销,并通过考虑注意力矩阵的下三角特性提出了规范化注意力分数作为识别重要标记的有效度量,以获得更高的压缩比,同时提供了快速生成速度和最小性能损失。
May, 2024
长上下文大语言模型的推理速度下降的问题可以通过使用查询感知的 KV 缓存选择算法来加速自注意力机制,该算法通过仅加载前 K 个关键 KV 缓存页面来显著提高自注意力的速度。
Jun, 2024