Sep, 2024

CSKV:长上下文场景中训练高效的KV缓存通道缩减

TL;DR本研究解决了长上下文任务中关键值(KV)缓存带来的大内存开销问题。通过引入CSKV技术,利用通道维度的冗余性并进行低秩分解,从而实现KV缓存的压缩,同时引入双分支KV缓存以保持模型性能。研究结果表明,CSKV能够将KV缓存的内存开销减少80%,并在与量化结合时实现高达95%的压缩比。