Jun, 2024

PyramidKV: 基于金字塔信息漏斗的动态 KV 缓存压缩

TL;DR在这项研究中,我们调查了大语言模型内部的基于注意力的信息流是否通过明显的模式进行大范围长文本处理。我们的观察揭示了大语言模型通过金字塔信息漏斗聚合信息,注意力在较低的层级中广泛散布,逐渐在特定上下文中巩固,并最终集中于关键标记(即大规模激活或注意力汇聚)在较高的层级。在这些洞察的基础上,我们开发了一个新颖且有效的 KV 缓存压缩方法 PyramidKV。该方法动态调整不同层级上的 KV 缓存大小,分配较低层级较多的缓存,而较高层级较少,与维护统一 KV 缓存大小的传统方法有所不同。我们根据 LongBench 基准评估的实验表明,PyramidKV 与完整 KV 缓存模型的性能相当,但只保留了 12% 的 KV 缓存,因此显著减少了内存使用。在强调内存效率的情景下,仅维护 0.7% 的 KV 缓存,PyramidKV 超越其他 KV 缓存压缩技术,在 TREC 上实现了高达 20.5 个绝对准确度的提升。