Sep, 2023
大规模语言模型服务的高效内存管理与 PagedAttention
Efficient Memory Management for Large Language Model Serving with PagedAttention
Woosuk Kwon, Zhuohan Li, Siyuan Zhuang, Ying Sheng, Lianmin Zheng...
TL;DR大规模语言模型的高吞吐量通过批处理大量请求实现,本研究提出了 PagedAttention 算法和 vLLM 系统,用于减少关键值缓存(KV cache)内存的浪费和冗余复制,改善系统的吞吐量和内存利用率。