Nov, 2024

MiniKV:通过2位层区分KV缓存突破LLM推理的极限

TL;DR本研究针对大语言模型(LLM)推理中的KV缓存占用内存问题进行优化,提出了MiniKV方法。该方法通过一种新颖的2位层区分KV缓存技术,在显著减少缓存大小的同时,保持了长上下文任务的高准确性。实验表明,MiniKV实现了86%的缓存压缩率,同时准确性恢复率超过98.5%,性能优于现有方法。