Mar, 2024

GEAR: 基于高效 KV 缓存压缩的近无损低长度模型生成推断算法

TL;DR提出了GEAR,一种高效的KV缓存压缩框架,实现了几乎无损的高压缩比。相比其他方法,GEAR在减少峰值内存大小的同时,实现了高达2.38倍的吞吐量提升。