Jul, 2024

模型指导合并位置:针对长上下文任务的自适应键值缓存合并

TL;DR我们提出了一种名为KVMerger的新型KV缓存合并方法,以在受限的内存预算下实现适应性KV缓存压缩,并且在长上下文任务中降低性能下降。