SqueezeAttention: 通过分层最佳预算在 LLM 推理中对 KV-Cache 进行 2D 管理

Apr, 2024

SqueezeAttention: 通过分层最佳预算在 LLM 推理中对 KV-Cache 进行 2D 管理

SqueezeAttention: 2D Management of KV-Cache in LLM Inference via Layer-wise Optimal Budget

Zihao Wang, Shaoduo Gan

TL;DR通过确定关注层的重要性，我们提出了 SqueezeAttention 来精确优化动态分配关键值缓存的预算，并结合三种代表性的标记稀疏化算法来压缩每个层的关键值缓存。通过从序列和层两个维度进行优化，SqueezeAttention 在各种大型语言模型和基准测试中实现了 30% 至 70% 的内存减少和最高 2.2 倍的吞吐量提升。

Abstract

Optimizing the Key-Value (KV) cache of the large language model (LLM) has been considered critical to saving the cost of inference. Most of the existing kv-cache compression algorithms attempted to sparsify the s

key-value cache large language model kv-cache compression algorithms squeezeattention memory reductions

发现论文，激发创造

大型语言模型高效推理的层压化 KV 缓存

提出了一种新的方法，只计算和缓存少量层的键值以大幅节省内存消耗并提高推理吞吐量。在大型语言模型上的实验证明，该方法的推理吞吐量比标准 Transformer 高 26 倍，同时在语言建模和下游任务中具有竞争性能。此外，该方法与现有的 Transformer 节省内存技术正交，因此可以轻松将它们与我们的模型集成，进一步提高推理效率。

May, 2024

基于 L2 范数的高效 KV 缓存压缩策略

基于对注意力分配模式和键嵌入进行分析，我们提出了一种基于键嵌入的压缩策略，证实可在不降低准确性的情况下，将关键值 (KV) 缓存大小减少 50%（在语言模型和针对性查询任务中）和 90%（在密码检索任务中）。

Jun, 2024

序列秘密揭示舍弃的内容

本文介绍了一种优化大语言模型中键值缓存的方法，通过动态保留重要的键值对来减少推理过程中键值缓存的内存使用量高达 70%，而不会引起性能明显下降。

Apr, 2024

ALISA: 加速大型语言模型推理的稀疏感知键值缓存

ALISA 是一种算法 - 系统共同设计解决方案，旨在解决 KV 缓存所带来的挑战。通过引入高度稀疏的注意力层和优化缓存与重新计算之间的权衡，ALISA 在有限资源的系统中最大化整体性能。

Mar, 2024

Quest: 查询感知稀疏性用于高效长上下文 LLM 推断

长上下文大语言模型的推理速度下降的问题可以通过使用查询感知的 KV 缓存选择算法来加速自注意力机制，该算法通过仅加载前 K 个关键 KV 缓存页面来显著提高自注意力的速度。

Jun, 2024

MiniCache：大型语言模型的键值缓存深度维度压缩

通过对大型语言模型的键 - 值缓存进行压缩，以降低内存占用，并提高高吞吐量和优化压缩比率。

May, 2024

LLM 中高效压缩 KV 头

在本文中，我们探索了 Key-Value 缓存的低秩特性，并提出了一种压缩 Key-Value 头部的新方法，该方法在最小化压缩误差的同时保持与原始大语言模型相当的性能，为在资源受限环境中更高效的大语言模型部署提供了一种有前途的方向。

Jun, 2024

模型指导的内容丢弃方法：用于大型语言模型的自适应 KV 缓存压缩

通过自适应 KV 缓存压缩的插拔式方法，我们引入了一种减少大型语言模型（LLM）生成推理内存占用的方法。通过有针对性的分析注意力模块的内在结构，我们构建自适应 KV 缓存：针对局部上下文的注意力头强调接触范围短的上下文，针对特殊标记的注意力头中心化的丢弃非特殊标记，只有广泛关注所有标记的注意力头才使用标准 KV 缓存。此外，通过轻量级的注意力分析引导自适应 KV 缓存的构建，FastGen 不需要资源密集的微调或重新训练。在各种场景的实验中，FastGen 在 GPU 内存消耗方面显著减少，同时几乎没有生成质量损失。我们将发布用于重现的代码和兼容的 CUDA 内核。

Oct, 2023

PyramidKV: 基于金字塔信息漏斗的动态 KV 缓存压缩

在这项研究中，我们调查了大语言模型内部的基于注意力的信息流是否通过明显的模式进行大范围长文本处理。我们的观察揭示了大语言模型通过金字塔信息漏斗聚合信息，注意力在较低的层级中广泛散布，逐渐在特定上下文中巩固，并最终集中于关键标记（即大规模激活或注意力汇聚）在较高的层级。在这些洞察的基础上，我们开发了一个新颖且有效的 KV 缓存压缩方法 PyramidKV。该方法动态调整不同层级上的 KV 缓存大小，分配较低层级较多的缓存，而较高层级较少，与维护统一 KV 缓存大小的传统方法有所不同。我们根据 LongBench 基准评估的实验表明，PyramidKV 与完整 KV 缓存模型的性能相当，但只保留了 12% 的 KV 缓存，因此显著减少了内存使用。在强调内存效率的情景下，仅维护 0.7% 的 KV 缓存，PyramidKV 超越其他 KV 缓存压缩技术，在 TREC 上实现了高达 20.5 个绝对准确度的提升。

Jun, 2024

金字塔推理：金字塔 KV 缓存压缩用于高吞吐率 LLM 推理

通过压缩键值缓存并保留关键上下文，提出了一种名为 PyramidInfer 的方法，以提高大型语言模型在 GPU 内存使用和推理速度方面的可扩展性。实验结果显示 PyramidInfer 相比 Accelerate 方法，在增加 2.2 倍的吞吐量的同时减少了 54% 的 GPU 内存占用。

May, 2024