Oct, 2024

SimLayerKV:用于层级KV缓存减少的简单框架

TL;DR本研究针对大型语言模型在处理长上下文时的内存需求问题,提出了SimLayerKV方法,通过识别懒惰层并选择性地减少其KV缓存,从而降低了缓存冗余。实验结果显示,该方法能够实现5倍的KV缓存压缩比,仅有1.2%的性能下降,具有广泛的应用潜力和简易实现的优势。