关于逐出政策对键值约束生成语言模型推理的有效性

Feb, 2024

关于逐出政策对键值约束生成语言模型推理的有效性

On the Efficacy of Eviction Policy for Key-Value Constrained Generative Language Model Inference

Siyu Ren, Kenny Q. Zhu

TL;DR本文研究了现有驱逐策略在重要性评分计算和驱逐范围构建方面的不足，并提出 RoCo，一种基于时间注意力分数和鲁棒性度量的稳健缓存省略策略。通过广泛的实验验证了 RoCo 的卓越性能，并发布了 EasyKV 软件包，专门用于用户友好的键值约束生成推断。

Abstract

Despite the recent success associated with large language models~(LLMs), they are notably cost-prohibitive to deploy in resource-constrained environments due to their excessive memory and computational demands. I

large language models resource-constrained environments eviction policies importance score calculation eviction scope construction

发现论文，激发创造

序列秘密揭示舍弃的内容

本文介绍了一种优化大语言模型中键值缓存的方法，通过动态保留重要的键值对来减少推理过程中键值缓存的内存使用量高达 70%，而不会引起性能明显下降。

Apr, 2024

无漏洞：通过重要性感知混合精度量化实现可靠的键值缓存压缩

通过实验证明，即使通过减少精度量化保存被清除的 KV 对中的一小部分信息，也能大大恢复引起的退化；同时，对于重要的 KV 对，必须保留较高的精度以确保生成质量。基于这些观察，我们提出了一种可靠的缓存压缩方法，即混合精度 KV 缓存（MiKV），通过将被清除的 KV 对保留在低精度以保留上下文细节，并通过将重要的 KV 对保留在高精度来确保生成质量。与其他基准相比，我们的方法在多种基准和 LLM 骨干上提供了一个最先进的压缩比和性能的权衡。

Feb, 2024

使用 KV 缓存压缩合成循环以实现高效的 LLM 推理

通过整合一个（几乎不消耗）常量大小的缓存与基于驱逐策略的缓存方法，提出了 LESS，以在过去的解码步骤中查询所有标记。它在时间上保留信息的能力可在多种任务中展现出优点，帮助降低性能差距和提高效率。

Feb, 2024

使用 Kcache 的高效 LLM 推断

KCache 技术是一种用于提高大型语言模型推理过程中内存瓶颈问题的技术，通过缓存预先计算的 KV 状态，将热门 LLMs 的吞吐量提高 40%，同时保持准确性。

Apr, 2024

模型指导的内容丢弃方法：用于大型语言模型的自适应 KV 缓存压缩

通过自适应 KV 缓存压缩的插拔式方法，我们引入了一种减少大型语言模型（LLM）生成推理内存占用的方法。通过有针对性的分析注意力模块的内在结构，我们构建自适应 KV 缓存：针对局部上下文的注意力头强调接触范围短的上下文，针对特殊标记的注意力头中心化的丢弃非特殊标记，只有广泛关注所有标记的注意力头才使用标准 KV 缓存。此外，通过轻量级的注意力分析引导自适应 KV 缓存的构建，FastGen 不需要资源密集的微调或重新训练。在各种场景的实验中，FastGen 在 GPU 内存消耗方面显著减少，同时几乎没有生成质量损失。我们将发布用于重现的代码和兼容的 CUDA 内核。

Oct, 2023

H$_2$O: 大语言模型高效生成推理的重要串行预测器

介绍了一种利用 Heavy Hitters 实现 KV cache 的新方法，提高了 Large Language Models 在长序列生成任务中的运行性能。

Jun, 2023

LoCoCo：为了长上下文压缩而引入的卷积操作

本文介绍了一种用于大型语言模型中处理长上下文序列的新方法，名为 Dropping In Convolutions for Long Context Compression（LoCoCo）。LoCoCo 通过使用一个固定大小的键 - 值（KV）缓存来提高推理和微调阶段的效率，通过自适应融合技术将先前的 KV 对与输入的标记混合，以最小化上下文信息的损失并确保准确的注意力建模。通过动态计算每个 KV 缓存槽的混合权重来实现标记的整合。相比于相同缓存大小的基准模型，LoCoCo 在推理期间成功地将多达 3482 个标记压缩到 128 大小的 KV 缓存中，并保持了与完整序列相当的性能提升了 0.2791 个单位的准确率。在后训练调优过程中，我们还使用大小为 512 的 KV 缓存有效地将上下文长度从 4K 扩展到 32K，达到了与整个序列进行微调相似的性能。

Jun, 2024

大型语言模型高效推理的层压化 KV 缓存

提出了一种新的方法，只计算和缓存少量层的键值以大幅节省内存消耗并提高推理吞吐量。在大型语言模型上的实验证明，该方法的推理吞吐量比标准 Transformer 高 26 倍，同时在语言建模和下游任务中具有竞争性能。此外，该方法与现有的 Transformer 节省内存技术正交，因此可以轻松将它们与我们的模型集成，进一步提高推理效率。

May, 2024

利用重要性假设的持久性进行测试时 LLM KV 缓存压缩的剪刀手技术

Scissorhands 是一种用于大型语言模型的系统，通过存储关键的 token 来管理生成过程中的内存使用，从而实现将 KV Cache 内存使用量控制在固定的预算内，最高可以将其降低 5 倍。

May, 2023

金字塔推理：金字塔 KV 缓存压缩用于高吞吐率 LLM 推理

通过压缩键值缓存并保留关键上下文，提出了一种名为 PyramidInfer 的方法，以提高大型语言模型在 GPU 内存使用和推理速度方面的可扩展性。实验结果显示 PyramidInfer 相比 Accelerate 方法，在增加 2.2 倍的吞吐量的同时减少了 54% 的 GPU 内存占用。

May, 2024