Sep, 2023

大规模语言模型服务的高效内存管理与 PagedAttention

TL;DR大规模语言模型的高吞吐量通过批处理大量请求实现,本研究提出了 PagedAttention 算法和 vLLM 系统,用于减少关键值缓存(KV cache)内存的浪费和冗余复制,改善系统的吞吐量和内存利用率。