Sep, 2024

KV-压缩:基于分页的键值缓存压缩及其可变压缩率

TL;DR本研究解决了大型语言模型长上下文推理中内存资源分配效率低下的问题。通过引入一种新区块的分页注意力框架KV-压缩,实现了按理论压缩率降低键值缓存的内存占用,从而显著提升了长上下文请求的并发处理能力。实验结果显示,该方法在多个基准测试中达到最先进的性能,并能够实现高达8倍的压缩率,而对模型性能影响微乎其微。