May, 2024

MiniCache:大型语言模型的键值缓存深度维度压缩

TL;DR通过对大型语言模型的键 - 值缓存进行压缩,以降低内存占用,并提高高吞吐量和优化压缩比率。