ACLMay, 2024

金字塔推理:金字塔 KV 缓存压缩用于高吞吐率 LLM 推理

TL;DR通过压缩键值缓存并保留关键上下文,提出了一种名为 PyramidInfer 的方法,以提高大型语言模型在 GPU 内存使用和推理速度方面的可扩展性。实验结果显示 PyramidInfer 相比 Accelerate 方法,在增加 2.2 倍的吞吐量的同时减少了 54% 的 GPU 内存占用。