May, 2023

利用重要性假设的持久性进行测试时 LLM KV 缓存压缩的剪刀手技术

TL;DRScissorhands 是一种用于大型语言模型的系统,通过存储关键的 token 来管理生成过程中的内存使用,从而实现将 KV Cache 内存使用量控制在固定的预算内,最高可以将其降低 5 倍。