May, 2023
利用重要性假设的持久性进行测试时 LLM KV 缓存压缩的剪刀手技术
Scissorhands: Exploiting the Persistence of Importance Hypothesis for LLM KV Cache Compression at Test Time
Zichang Liu, Aditya Desai, Fangshuo Liao, Weitao Wang, Victor Xie...
TL;DRScissorhands 是一种用于大型语言模型的系统,通过存储关键的 token 来管理生成过程中的内存使用,从而实现将 KV Cache 内存使用量控制在固定的预算内,最高可以将其降低 5 倍。