Apr, 2024

使用 Kcache 的高效 LLM 推断

TL;DRKCache 技术是一种用于提高大型语言模型推理过程中内存瓶颈问题的技术,通过缓存预先计算的 KV 状态,将热门 LLMs 的吞吐量提高 40%,同时保持准确性。