金字塔推理：金字塔 KV 缓存压缩用于高吞吐率 LLM 推理

ACLMay, 2024

金字塔推理：金字塔 KV 缓存压缩用于高吞吐率 LLM 推理

PyramidInfer: Pyramid KV Cache Compression for High-throughput LLM Inference

Dongjie Yang, XiaoDong Han, Yan Gao, Yao Hu, Shilin Zhang...

TL;DR通过压缩键值缓存并保留关键上下文，提出了一种名为 PyramidInfer 的方法，以提高大型语言模型在 GPU 内存使用和推理速度方面的可扩展性。实验结果显示 PyramidInfer 相比 Accelerate 方法，在增加 2.2 倍的吞吐量的同时减少了 54% 的 GPU 内存占用。

Abstract

large language models (LLMs) have shown remarkable comprehension abilities but face challenges in gpu memory usage during inference, hindering their scalability for real-time applications like chatbots. To accele

large language models gpu memory usage kv cache compression inter-layer dependency pyramidinfer

发现论文，激发创造

PyramidKV: 基于金字塔信息漏斗的动态 KV 缓存压缩

在这项研究中，我们调查了大语言模型内部的基于注意力的信息流是否通过明显的模式进行大范围长文本处理。我们的观察揭示了大语言模型通过金字塔信息漏斗聚合信息，注意力在较低的层级中广泛散布，逐渐在特定上下文中巩固，并最终集中于关键标记（即大规模激活或注意力汇聚）在较高的层级。在这些洞察的基础上，我们开发了一个新颖且有效的 KV 缓存压缩方法 PyramidKV。该方法动态调整不同层级上的 KV 缓存大小，分配较低层级较多的缓存，而较高层级较少，与维护统一 KV 缓存大小的传统方法有所不同。我们根据 LongBench 基准评估的实验表明，PyramidKV 与完整 KV 缓存模型的性能相当，但只保留了 12% 的 KV 缓存，因此显著减少了内存使用。在强调内存效率的情景下，仅维护 0.7% 的 KV 缓存，PyramidKV 超越其他 KV 缓存压缩技术，在 TREC 上实现了高达 20.5 个绝对准确度的提升。

Jun, 2024

大型语言模型高效推理的层压化 KV 缓存

提出了一种新的方法，只计算和缓存少量层的键值以大幅节省内存消耗并提高推理吞吐量。在大型语言模型上的实验证明，该方法的推理吞吐量比标准 Transformer 高 26 倍，同时在语言建模和下游任务中具有竞争性能。此外，该方法与现有的 Transformer 节省内存技术正交，因此可以轻松将它们与我们的模型集成，进一步提高推理效率。

May, 2024

MiniCache：大型语言模型的键值缓存深度维度压缩

通过对大型语言模型的键 - 值缓存进行压缩，以降低内存占用，并提高高吞吐量和优化压缩比率。

May, 2024

使用 Kcache 的高效 LLM 推断

KCache 技术是一种用于提高大型语言模型推理过程中内存瓶颈问题的技术，通过缓存预先计算的 KV 状态，将热门 LLMs 的吞吐量提高 40%，同时保持准确性。

Apr, 2024

模型指导的内容丢弃方法：用于大型语言模型的自适应 KV 缓存压缩

通过自适应 KV 缓存压缩的插拔式方法，我们引入了一种减少大型语言模型（LLM）生成推理内存占用的方法。通过有针对性的分析注意力模块的内在结构，我们构建自适应 KV 缓存：针对局部上下文的注意力头强调接触范围短的上下文，针对特殊标记的注意力头中心化的丢弃非特殊标记，只有广泛关注所有标记的注意力头才使用标准 KV 缓存。此外，通过轻量级的注意力分析引导自适应 KV 缓存的构建，FastGen 不需要资源密集的微调或重新训练。在各种场景的实验中，FastGen 在 GPU 内存消耗方面显著减少，同时几乎没有生成质量损失。我们将发布用于重现的代码和兼容的 CUDA 内核。

Oct, 2023

序列秘密揭示舍弃的内容

本文介绍了一种优化大语言模型中键值缓存的方法，通过动态保留重要的键值对来减少推理过程中键值缓存的内存使用量高达 70%，而不会引起性能明显下降。

Apr, 2024

MLKV：用于内存高效 Transformer 解码的多层键值头

通过多层键 - 值共享方式，将键值缓存扩展到变压器层，进一步降低内存使用量，提高变压器模型在大规模场景中的效率。

Jun, 2024

InfiniGen：基于动态 KV 缓存管理的大规模语言模型的高效生成推断

Transformer-based LLMs often face challenges in serving long-text generation due to the enormous memory footprint of the KV cache, but InfiniGen presents a novel KV cache management framework that improves the performance of offloading-based systems by up to 3.00x compared to prior methods while maintaining better model accuracy.

Jun, 2024

SqueezeAttention: 通过分层最佳预算在 LLM 推理中对 KV-Cache 进行 2D 管理

通过确定关注层的重要性，我们提出了 SqueezeAttention 来精确优化动态分配关键值缓存的预算，并结合三种代表性的标记稀疏化算法来压缩每个层的关键值缓存。通过从序列和层两个维度进行优化，SqueezeAttention 在各种大型语言模型和基准测试中实现了 30% 至 70% 的内存减少和最高 2.2 倍的吞吐量提升。

Apr, 2024

LLM 中高效压缩 KV 头

在本文中，我们探索了 Key-Value 缓存的低秩特性，并提出了一种压缩 Key-Value 头部的新方法，该方法在最小化压缩误差的同时保持与原始大语言模型相当的性能，为在资源受限环境中更高效的大语言模型部署提供了一种有前途的方向。

Jun, 2024