Jun, 2024

月饼:Kimi 的基于 KVCache 的 LLM 服务架构

TL;DRMooncake 是一种基于 KVCache 的分散架构,用于提供 Kimi 服务,通过利用 GPU 集群的未充分利用的 CPU、DRAM 和 SSD 资源来实现 KVCache 的分散缓存,并通过 KVCache 调度程序,平衡最大化整体有效吞吐量和满足延迟相关的服务级别目标(SLOs),从而在应对高度过载方案时提高了吞吐量,并且在真实工作负载下,其创新的架构使 Kimi 能够处理更多的请求。