优化LLM中的KV缓存逐出策略：自适应分配以提升预算利用率

Jul, 2024

优化LLM中的KV缓存逐出策略：自适应分配以提升预算利用率

Optimizing KV Cache Eviction in LLMs: Adaptive Allocation for Enhanced Budget Utilization

Yuan Feng, Junlin Lv, Yukun Cao, Xike Xie, S. Kevin Zhou

TL;DR大型语言模型在各个领域取得了很好的成绩，但由于长序列推理所需的广泛KV缓存限制了效率。许多努力尝试在运行时清除非关键缓存元素，从而在给定的内存预算内减小缓存大小，同时保持生成质量。我们重新审查了现有策略的基本原理，并发现当前的做法是在驱逐过程中均匀分配预算到不同的注意力头上，这往往会降低驱逐后生成质量。基于这些发现，我们提出了一种简单而有效的自适应分配算法，不仅在理论上确保其损失上限不超过之前均匀分配方法的上限，而且还能与自注意机制的特性相一致，从而实际降低上限。此外，将此算法与两种最先进的方法结合起来，得到了Ada-SnapKV和Ada-Pyramid。对16个数据集和“大海捞针”测试的广泛实验验证证实，Ada-SnapKV和Ada-Pyramid实现了进一步的改进，在最高性能的技术水平上建立了新的基准。

Abstract

large language models have excelled in various fields but encounter efficiency limitations due to the extensive kv cache required for long sequences inference. Many efforts try to evict non-critical cache element

发现论文，激发创造

模型指导的内容丢弃方法：用于大型语言模型的自适应KV缓存压缩

通过自适应KV缓存压缩的插拔式方法，我们引入了一种减少大型语言模型（LLM）生成推理内存占用的方法。通过有针对性的分析注意力模块的内在结构，我们构建自适应KV缓存：针对局部上下文的注意力头强调接触范围短的上下文，针对特殊标记的注意力头中心化的丢弃非特殊标记，只有广泛关注所有标记的注意力头才使用标准KV缓存。此外，通过轻量级的注意力分析引导自适应KV缓存的构建，FastGen不需要资源密集的微调或重新训练。在各种场景的实验中，FastGen在GPU内存消耗方面显著减少，同时几乎没有生成质量损失。我们将发布用于重现的代码和兼容的CUDA内核。

Oct, 2023

使用KV缓存压缩合成循环以实现高效的LLM推理

通过整合一个（几乎不消耗）常量大小的缓存与基于驱逐策略的缓存方法，提出了LESS，以在过去的解码步骤中查询所有标记。它在时间上保留信息的能力可在多种任务中展现出优点，帮助降低性能差距和提高效率。

Feb, 2024

无漏洞:通过重要性感知混合精度量化实现可靠的键值缓存压缩

通过实验证明，即使通过减少精度量化保存被清除的KV对中的一小部分信息，也能大大恢复引起的退化；同时，对于重要的KV对，必须保留较高的精度以确保生成质量。基于这些观察，我们提出了一种可靠的缓存压缩方法，即混合精度KV缓存（MiKV），通过将被清除的KV对保留在低精度以保留上下文细节，并通过将重要的KV对保留在高精度来确保生成质量。与其他基准相比，我们的方法在多种基准和LLM骨干上提供了一个最先进的压缩比和性能的权衡。

Feb, 2024

SqueezeAttention: 通过分层最佳预算在 LLM 推理中对 KV-Cache 进行 2D 管理

通过确定关注层的重要性，我们提出了SqueezeAttention来精确优化动态分配关键值缓存的预算，并结合三种代表性的标记稀疏化算法来压缩每个层的关键值缓存。通过从序列和层两个维度进行优化，SqueezeAttention在各种大型语言模型和基准测试中实现了30%至70%的内存减少和最高2.2倍的吞吐量提升。

Apr, 2024

序列秘密揭示舍弃的内容

本文介绍了一种优化大语言模型中键值缓存的方法，通过动态保留重要的键值对来减少推理过程中键值缓存的内存使用量高达70%，而不会引起性能明显下降。

Apr, 2024

模型指导合并位置：针对长上下文任务的自适应键值缓存合并

我们提出了一种名为KVMerger的新型KV缓存合并方法，以在受限的内存预算下实现适应性KV缓存压缩，并且在长上下文任务中降低性能下降。

Jul, 2024

ThinK: 通过查询驱动的剪枝实现更薄的键缓存

本研究针对大型语言模型在处理长序列时内存和计算成本高的问题，通过探讨键值缓存中的冗余，提出了名为ThinK的查询依赖性缓存剪枝方法。该方法在选择性剪除不重要的通道的同时，保持或提高了模型的准确性，并将内存成本降低超过20%。

Jul, 2024

降低成本：大型语言模型KV缓存消耗优化方法综述

本研究针对大型语言模型在处理长文本时效率低下的问题，探讨了KV缓存的优化方法。通过分析不同的KV缓存压缩策略，本文提供了在预训练、部署和推理阶段的优化方案，从而为大型语言模型的未来发展提供了新的见解和方向。

Jul, 2024

NACL：一种通用且有效的长文本推理时 KV 缓存驱逐框架

该研究针对大型语言模型在推理过程中KV缓存造成的高内存消耗问题，提出了NACL框架，通过单步操作优化缓存驱逐过程。研究表明，NACL显著提高了短文本和长文本任务的性能，分别提升了80%和76%，同时减少了最多50%的KV缓存使用，且保持了95%以上的性能。

Aug, 2024

NACL：一种通用有效的长语言模型推理时 KV 缓存驱逐框架

本研究针对大型语言模型在推理时面临的KV缓存管理问题，提出了NACL框架，旨在优化长上下文的缓存驱逐过程。NACL通过结合准确的注意力得分统计和多样化的随机驱逐策略，显著改善了短文本和长文本任务的性能，分别提高了80%和76%的准确率，同时将KV缓存减少了50%以上，且性能保持在95%以上。

Aug, 2024